CN116469471A - 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型 - Google Patents

一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型 Download PDF

Info

Publication number
CN116469471A
CN116469471A CN202310336137.3A CN202310336137A CN116469471A CN 116469471 A CN116469471 A CN 116469471A CN 202310336137 A CN202310336137 A CN 202310336137A CN 116469471 A CN116469471 A CN 116469471A
Authority
CN
China
Prior art keywords
lymph node
colorectal cancer
node metastasis
molecular marker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310336137.3A
Other languages
English (en)
Inventor
李明珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aipu Tikang Biotechnology Co ltd
Original Assignee
Shanghai Aipu Tikang Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aipu Tikang Biotechnology Co ltd filed Critical Shanghai Aipu Tikang Biotechnology Co ltd
Priority to CN202310336137.3A priority Critical patent/CN116469471A/zh
Publication of CN116469471A publication Critical patent/CN116469471A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • G01N33/57488Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds identifable in body fluids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Cell Biology (AREA)
  • Organic Chemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Zoology (AREA)
  • Food Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)

Abstract

本发明公开了一种利用蛋白质组学检测T1期结直肠癌淋巴结转移的模型。具体地,公开了构建检测结直肠癌淋巴结转移的模型的方法,所述结直肠癌的分期为T1期,所述方法包括:(1)初步分析步骤:对上述临床数据进行初步分析,得到候选标志物;(2)分析步骤:对所述临床数据和所述候选标志物进行分析,得到分子标志物组合;所述分子标志物组合包括ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。所得模型的检测的灵敏度、特异度均较高,可以对淋巴结转移和不转移精准预测,且能针对每一病例的蛋白质表达情况,给出一个淋巴结转移概率,更有利于精准治疗。

Description

一种利用蛋白质组学检测T1期结直肠癌淋巴结转移的模型
技术领域
本发明属于生物医药技术和诊断领域,具体涉及一种构建结直肠癌淋巴结转移预测模型的方法、结直肠癌淋巴结转移预测模型、用于预测结直肠癌淋巴结转移的系统、分子标志物在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用、用于检测分子标志物的试剂、用于检测分子标志物的试剂在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用及一种分子标志物组合。
背景技术
结直肠癌(Colorectal cancer,CRC)是常见的恶性肿瘤之一,最新统计结果表明全球结直肠癌的发病率和死亡率均处于恶性肿瘤第三位,由于人们饮食习惯的变化和生活水平的提高,肠癌发病率也逐年增加。随着技术的发展以及肠癌筛查的普及,越来越多的肠癌在早期(pT1期)得以诊断。总体而言,T1期结直肠癌的淋巴结转移概率在7-15%,淋巴结转移不仅影响外科治疗的决策,也影响了患者预后。
T1结直肠癌具有侵袭性,可发生淋巴结及远处转移,因此标准治疗方式为包含淋巴结清扫的结直肠根治术。近年来内镜筛查项目的不断实施和内镜技术的快速发展,越来越多的T1期肠癌在初始内镜下得以切除。当前,T1期CRC有三种治疗方式:1.单独内镜切除;2.内镜切除术后追加外科术后;3.直接外科手术。对于内镜切除术后的T1期结直肠癌患者来说,内镜是否达到R0切除及患者是否存在淋巴结转移是决定是否追加补救手术。美国国家综合癌症网络(NCCN);欧洲肿瘤医学会(ESMO)及日本结直肠癌学会(JSCCR)都提出了各自淋巴结转移的高危判别标准(主要包括以下几点:1.低分化腺癌;2.淋巴血管侵犯;3.浸润深度>1000μm),然而对淋巴结转移预测的准确率仅为8-16%。因此,精准预测T1期结直肠癌是否有淋巴结转移有助于外科治疗的决策。
此外,T1期结直肠癌患者的预后很大程度上取决于淋巴结的状态。美国癌症联合委员会(AJCC)的TNM分期指出,在没有淋巴结转移时,T1期肠癌为I期,5年生存率≥95%;而若是存在淋巴结转移,则为III期,5年生存下降到68-90%。
综上,是否存在淋巴结转移不仅影响了外科治疗的决策,也影响了患者预后。而基于现有证据的临床病理危险因素,并不能准确的甄别淋巴结转移患者。因此迫切需要一种手段,能够准确的判断淋巴结转移。
蛋白质作为生物功能的执行者,是生命活动最主要的载体,几乎参与生命活动的所有过程。蛋白质组学以研究一种细胞、一种组织乃至一种生物所表达的全部蛋白质为目,可以在大规模水平上研究蛋白质的特征,由此在蛋白质水平上对疾病的发生发展,细胞代谢等生物学过程获得整体而全面的认知。通过肿瘤蛋白质组学研究,可以了解肿瘤的整个蛋白质组,反映蛋白质的功能的变化,增加对于肿瘤的认知。同时,也可以利用蛋白质表达图谱的不同,建立分子标志物的相互连接以及发现可预测的治疗性蛋白质。因此,蛋白质组学技术为寻找潜在的标志物以及提供个体化的治疗方案方面提供了新的理想平台
近年来,许多研究利用蛋白组学,在良性疾病亦或是恶性肿瘤的诊断及预后方面的研究中都成功筛选到了分子标志物,并成功建立的预测模型。在肠癌蛋白组学方面,2014年的Nature杂志上刊登了第一张基于蛋白质组学的肠癌分子分型图谱。蛋白质作为连接基因和表型的关键一环,是基因功能的直接行使者。作者通过获取TCGA数据库中224例肠癌生物标本,利用高通量蛋白质谱分析技术,重新还原了从基因到转录本再到蛋白质的整个生物生理过程。并提出了蛋白组学的分子分型。《胃肠病学》杂志也分别于2018,2019,2021年连续发表了多篇利用非编码RNR,mRNA以及临床病理因素预测T1期结直肠癌淋巴结转移的文章。
由于蛋白质功能的关键作用,蛋白质组学已成为后基因组时代研究蛋白质(分子标志物)整体表达的主要技术。它可以应用于细胞,组织或体液中,并为彻底改变分子标志物的发现和未来医学的发展提供了机会。相对比与基因组学和转录组学方法蛋白质组学能更好的反应肿瘤生物学行为,因为蛋白质是细胞的主要功能物质。蛋白质组学方法不仅能够鉴定疾病和正常样品中的数千种差异表达蛋白,而且还具有区分传统方法无法识别的肿瘤亚型的能力。
蛋白质组学的进展,尤其是质谱(MS)的发展,使能鉴定,并且定量出细胞中数以千计的蛋白及肽段,迅速提升了对蛋白质分子标志物的认识。与液相色谱法或其他分馏技术结合使用时,该技术可提供仅基于凝胶的技术无法获得的分子信息,例如分析具有极高分子量的蛋白质或探讨翻译后修饰(PTM)的问题。蛋白质组学技术的优势在于它可以肿瘤的整个蛋白质组,反映蛋白质的功能,建立分子标志物的相互连接以及发现可预测的治疗性蛋白质。因此,蛋白质组学技术为寻找潜在的标志物以及提供个体化的治疗方案方面提供了新的理想平台。
结肠直肠癌是一个异质性的群体,在疾病发展过程中会出现不同的临床进程和表现。在疾病进展中,同一个体的不同时期、不同病灶间,都会出现明显的异质性。
根据既往文献报道,NCCN指南对T1期结直肠癌淋巴结转移预测的准确性仅10-20%,也就是超过70%的患者可能追加了非必要的补救手术。
发明内容
为了解决上述无法准确判断T1期结直肠癌患者在内镜切除后是否需要追加淋巴结清扫的手术的缺陷,本发明提供了一种利用蛋白质组学检测T1期结直肠癌淋巴结转移的模型。本发明目的旨在以下技术问题:即判断T1期结直肠癌患者是否存在淋巴结转移,进而帮助医生判断内镜切除术后的T1期结直肠癌患者是否需要追加淋巴结清扫的外科补救手术。
基于此,本发明以石蜡包埋T1NxM0组织样本切片,利用液相色谱串联质谱,探究T1期结直肠癌淋巴结转移患者的蛋白质图谱,并建立基于蛋白质组学的淋巴结转移诊断模型。
本发明通过LC-MS技术检测了淋巴结阳性的T1期结直肠癌患者石蜡切片样本62例,及淋巴结阴性的患者70例。选取表达频次大于30%;选取了在训练集里淋巴结转移与非转移两组之间表达存在显著差异的分子(wilcoxon rank-sum检验p值小于0.1),共407个分子被筛选作为候选标志物,随后通过Lasso-Logistic回归获得了55分子标志物构建T1期结直肠癌淋巴结转移预测模型。55个分子标志物名称及建模系数见图7。
为了解决现有技术中的缺陷,本发明第一方面提供一种构建检测结直肠癌淋巴结转移的模型的方法,所述结直肠癌的分期为T1期,所述方法包括:
(1)初步分析步骤:对上述临床数据进行初步分析,得到候选标志物;
(2)分析步骤:利用机器学习方法,对所述临床数据和所述候选标志物进行分析,得到分子标志物组合与参数;根据所述分子标志物组合以及所述的参数得到所述的模型;
所述分子标志物组合包括ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。
在某些实施方案中,所述分子标志物组合还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
在某些实施方案中,在所述(1)之前,还包括:
数据获取步骤:获取结直肠癌手术后的临床数据;和/或,预处理步骤:对所述结直肠癌手术后的临床数据进行分类分组,得到建模组临床数据和验证组临床数据,并完成蛋白质鉴定;
和/或,在所述(2)之后,还包括:
验证步骤:基于所述分析步骤和所述验证组临床数据,计算接受者特异性曲线的线下面积、灵敏度和特异性;并根据所述线下面积、灵敏度和特异性判断处理的准确性。
在某些实施方案中,所述临床数据通过LC-MS技术得到,使用DIA检测方式采集蛋白质表达量数据。优选地,通过Firmiana软件进行肽段匹配。更优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库。
在某些实施方案中,所述(1)中,所述候选标志物的筛选标准为蛋白丰度大于等于30%;优选地,所述筛选标准为wilcoxon rank-sum检验p值小于0.1;更优选地,所述筛选标准为wilcoxon rank-sum检验p值小于0.05且在两组样本中表达量有两倍及以上的差异。
在某些实施方案中,所述(2)中,所述分析包括以下至少一种:Lasso-logistic回归、随机森林方法、支持向量机方法、决策树方法、k近邻方法、朴素贝叶斯方法和/或AdaboDFSt方法;优选地,所述分析为Lasso-logistic回归和/或随机森林方法。
在某些实施方案中,所述(2)中,所述分析通过L1惩罚对自变量的系数进行压缩,选择非0系数的参数;优选地,进行所述分析后继续进行第二次回归分析,所述第二次回归分析使用随机森林方法和/或Lasso-logistic回归。
在某些实施方案中,所述模型能够有效区分结直肠癌淋巴结转移与结直肠癌非淋巴结转移,当概率大于等于0.5,则判断为结直肠癌淋巴结转移阳性;概率小于0.5,则判断为结直肠癌淋巴结转移阴性。
本发明第二方面提供一种结直肠癌淋巴结转移的预测模型,所述预测模型通过如本发明第一方面所述的方法构建得到。
本发明第三方面提供一种体外样本是否为结直肠癌淋巴结转移的预测方法,所述方法包括将体外样本的蛋白质表达量数据输入如本发明第二方面所述的预测模型,得到样本是否为结直肠癌淋巴结转移的结果;所述蛋白质表达量数据包括以下蛋白质的表达量数据:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;所述预测方法优选为非诊断目的。
本发明第四方面提供一种用于预测结直肠癌淋巴结转移的系统,所述系统包括:(1)数据接收模块:用于接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据包括以下蛋白质的表达量数据:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;
(2)判断并输出模块:用于在所述接收或输入完成后,通过如本发明第二方面所述的预测模型,输出对所述血浆样本的个体是否为结直肠癌淋巴结转移的判断结果。
本发明第五方面提供一种分子标志物在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用;其中,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
本发明第六方面提供一种试剂,所述试剂用于检测分子标志物的表达水平,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
在某些实施方案中,所述表达水平为蛋白表达水平和/或mRNA转录水平。优选地,所述试剂为与所述分子标志物特异性结合,或者与编码所述分子标志物的核酸特异性杂交的生物分子试剂。更优选地,所述生物分子试剂选自引物、探针和抗体。进一步更优选地,所述试剂为用于转录组和/或蛋白质组测序的试剂。
本发明第七方面提供一种用于检测分子标志物的试剂在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
本发明第八方面提供一种分子标志物组合,所述分子标志物组合包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
本发明第九方面提供一种试剂盒,所述试剂盒包含如本发明第六方面所述的试剂和如本发明第八方面所述的分子标志物组合。
本发明第十方面提供一种非诊断目的的预测结直肠癌淋巴结转移的方法,所述方法包括检测待测血浆样本中的分子标志物的表达水平;所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16。更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;
所述表达水平为蛋白表达水平和/或mRNA转录水平。
本发明第十一方面提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,可实现如本发明第四方面所述的系统的功能,或实现如本发明第十方面所述的预测结直肠癌淋巴结转移的方法的步骤。
本发明第十二方面提供一种电子设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实现如本发明第四方面所述的系统的功能,或实现如本发明第十方面所述的预测结直肠癌淋巴结转移的方法的步骤。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明所用试剂和原料均市售可得。
本发明的积极进步效果在于:
(1)本发明经建模组及验证组样本进行验证,检测的灵敏度、特异度均较高,内部验证的ROC曲线下面积为1.00。此时对应灵敏度和特异度分别为100%,100%。
(2)在纯内镜切除样本的数据集中验证,模型的ROC曲线下面积为0.96,灵敏度和特异度分别为100%,94.3%,证明该模型能够为临床诊断提供指导。
(3)在前瞻性入组的验证集中,模型的ROC曲线下面积为0.93,灵敏度和特异度分别为88.9%,84.2%,进一步证明了模型的有效性。
(4)本发明可以对淋巴结转移和不转移精准预测,即48%的患者为高危组,淋巴结转移概率为100%,强烈建议补救手术;52%患者为低危组,淋巴结转移概率为0%,建议积极随访。极大的减少了不必要的手术。
(5)相对于传统预测方式仅给出高低危可能性的“一刀切”方式,本发明能针对每一病例的蛋白质表达情况,给出一个淋巴结转移概率,更有利于精准治疗。本模型具有检测无创、便捷等特点(仅需要提供内镜切除标本石蜡切片,并通过早诊模型一站式实现淋巴结转移的诊断和报告)。本发明采用的LC-MS检测方法为成熟方法,检测结果可重复性高。
本发明通过LC-MS技术检测了淋巴结阳性的T1期结直肠癌患者石蜡切片样本62例,及淋巴结阴性的患者70例。选取表达频次大于30%;选取了在训练集里淋巴结转移与非转移两组之间表达存在显著差异的分子(wilcoxon rank-sum检验p值小于0.1),共407个分子被筛选作为候选标志物,随后通过Lasso-Logistic回归最终选取55分子标志物构建T1期结直肠癌淋巴结转移预测模型。55个分子标志物名称及建模系数见图7。
附图说明
图1为样本入组筛选流程。
图2为单个样本蛋白鉴定数目。
图3为总体蛋白鉴定数目。
图4为样本分布情况。
图5为回归系数变化。
图6为λ值与错误率。
图7为55个分子标志物的具体信息。
图8为训练集预测概率,图中每一个点代表一个样本,纵坐标代表样本在蛋白预测模型中的预测概率;横坐标代表样本编号;图中右上部分深色点代表淋巴结阴性患者,左下部分浅色点代表淋巴结转移阳性患者。
图9为训练集ROC曲线,纵坐标代表该诊断模型的灵敏度取值;横坐标代表诊断模型的特异度取值。
图10为验证集预测概率,图中每一个点代表一个样本,纵坐标代表样本在蛋白预测模型中的预测概率;横坐标代表样本编号;图中右上部分深色点代表淋巴结阴性患者,左下部分浅色点代表淋巴结转移阳性患者。
图11为验证集1ROC曲线,纵坐标代表该诊断模型的灵敏度取值;横坐标代表诊断模型的特异度取值。
图12为验证集预测概率,图中每一个点代表一个样本,纵坐标代表样本在蛋白预测模型中的预测概率;横坐标代表样本编号;图中右上部分深色点代表淋巴结阴性患者,左下部分浅色点代表淋巴结转移阳性患者。
图13为验证集1,ROC曲线纵坐标代表该诊断模型的灵敏度取值;横坐标代表诊断模型的特异度取值。
图14为高低危组区分,深色色区域为高危患者,浅色色区域为低危患者。
图15为模型高低危组区分效果。
图16为简化模型ROC曲线。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法,按照常规方法和条件,或按照商品说明书选择。
本发明涉及的分子标志物的具体信息均可参考NCBI官网或genecards数据库。
实施例1样本选择
从2008年6月-2020年4月的914例T1NxM0患者的石蜡样本中,选取建模组及验证组进行蛋白组学分析,所有患者均已知情,并通过了伦理委员会的审查批准。详见图1。
训练集:在2008年6月至2019年6月,有604例T1期结直肠癌患者在中山医院普外科行直接手术。筛选手术前没有接受过放疗,化疗等其它治疗且手术中淋巴结清扫数目大于12个的患者,其中淋巴结转移患者73例,无淋巴结转移患者531例。通过匹配性别及年龄,共计入组132例,入组淋巴结阳性患者62例,淋巴结阴性患者70例。
内镜样本验证集(验证集1):因为本发明是通过判断T1期结直肠癌患者是否存在淋巴结转移,从而决定患者在内镜治疗后是否需要追加补救手术,因此验证集选取了2017年1月至2019年10月在复旦大学附属中山医院进行内镜切除并行补救手术的患者,连续入组,共计入组43例,其中淋巴结阴性患者35例,阳性患者7例。
前瞻性验证集(验证集2):在模型完成之后,为验证模型的准确性,连续入组了从2019年10月至2020年4月在复旦大学附属中山医院进行手术符合入组条件的T1NxM0期结直肠癌患者,共计入组47例,其中淋巴结阴性患者38例,阳性患者9例。
实施例2样本制备及质谱分析
选取石蜡包埋T1NxM0肿瘤组织,切片10μm/片。收集所述肿瘤组织的样本到1.5mlEP管中,每管加裂解液200μl(100mM DTT,100mM Tris-HCl,1mM PMSF),冰上研磨4min,补充SDS(十二烷基硫酸钠)至终浓度4%。99摄氏度下煮沸30分钟,随后以12000g,离心5分钟,取上清,沉淀补充SDS重复以上步骤,分别煮沸1小时,2小时。三次上清混匀,加1ml丙酮,-20摄氏度沉淀过夜。丙酮清洗沉淀两遍,风干。8M Urea(尿素)复溶沉淀至FASP管,12000g离心半个小时,用50mM碳酸氰胺将尿素排净。加50微升50mM 3μg trypsin,37摄氏度下酶解,4h后补加酶2.5μg,继续酶解18个小时。最后加入200μl蒸馏水,洗脱两遍后风干。
液相色谱串联质谱(LC-MS/MS)检测系统由纳流高效液相色谱(HPLC)仪器(EasynLC1000系统,Thermo Fisher)与Orbitrap HFX质谱仪(Thermo Fisher)结合构成。纳米电喷雾离子源(Thermo Fisher)。将样品溶解在缓冲液A中(0.1%甲酸(FA))50%上样至分析预柱trap柱(100μm×2cm;粒子大小,3μm;孔径大小,),并在Column柱(100μm×30cm;粒子大小,3μm;孔径大小,/>)进行分离,75分钟的色谱梯度内分离(缓冲液A,0.1%FA;缓冲液B,80%乙腈,0.1%FA)。获得液相色谱串联质谱数据。
通过实验室开发的基于Firmiana软件进行数据库搜索来完成蛋白质的鉴定。所有数据均使用Firmiana(V1.0)进行处理。本实施例选择的预设为基于广义线性回归模型的机器学习算法。原始文件是根据Uniprot人类蛋白质数据库(released on 09-06-2021)检索。选择胰蛋白酶作为蛋白水解酶,最大允许两个漏切位点,固定修饰为carbamidomethyl(C),动态修饰为protein acetyl(protein N-term),oxidation(M)。第一个搜索质量耐受性为20ppm,离子产物50mmu。肽谱匹配(PSMs)和蛋白质的错误发现率(FDR)均小于1%。DIA的结果使用SpectraST软件将数据组合到光谱库中。共有327个文件用作参考光谱库,用于鉴定血液蛋白质。
使用DIA-NN(v1.7)分析DIA数据。DIA-NN使用默认设置(前体FDR:5%,Log lev:1,质量精确度:20ppm,质谱一级检测精确度:10ppm,扫描窗口:30,隐式蛋白质组:基因,量化策略:鲁棒LC(高精度))。将所鉴定的肽段定量结果记为所有参考谱库中色谱碎片离子峰面积的平均值。使用无标签的基于强度的绝对定量(iBAQ)方法进行蛋白质定量。本发明计算了峰面积值作为相应蛋白质的一部分。总分数(FOT)用于表示样品中特定蛋白质的标准化丰度。FOT定义为蛋白质的iBAQ除以样品中所有已鉴定蛋白质的总iBAQ。选择具有至少一条专属肽段(unique peptide)且1% FDR的蛋白质。
实施例3鉴定情况
221例样本每单例样本鉴定的蛋白质数目均超过4000个(图2),总共鉴定到了13091个蛋白(图3),且样品一致性,动态分布良好,不随组别或者手术年份的改变而发生变化(图3、图4)。证明本发明获得的蛋白质数据对于不同年份的样本检测情况一致性高,动态分布良好。
实施例4模型建立
在训练集中132例患者中(LN+(淋巴结转移阳性)62例,LN-(淋巴结转移阴性)70例),根据淋巴结转移情况,分为淋巴结转移组及非淋巴结转移组,两组之间进行比较蛋白差异。
首先,从临床实用的角度出发,为了提升预测的准确性及普适性,去除了一些低丰度蛋白(在训练集内表达频次小于30%的蛋白),共有4356个蛋白进入第二步筛选。
接下来,为了进一步缩小范围,选取了在训练集里淋巴结转移与非淋巴结转移两组之间表达存在显著差异的分子(wilcoxon rank-sum检验p值小于0.1),共407个分子标志物被筛选作为候选标志物。
蛋白预测模型的建立,基于Lasso-logistic回归,使用Lasso-logistic回归的默认算法。Lasso回归的核心思想是通过L1惩罚对自变量的系数进行压缩,使作用较小的自变量系数压缩为0,从而筛选出重要变量。即选择合适的正则化参数λ时,非0系数的参数选入最终模型。
图5展示了蛋白预测模型中407个蛋白变量系数与λ值之间的关系,当λ接近于0时,所有的变量系数为原始系数,当λ为1时,所有变量系数为0。
为了选出最优λ值(即最小的λ值),接下来在建模组中有放回的重复取十分之一做十折交叉验证(图6),图中由左至右两条纵行虚线分别代表最小λ及一个标准差的λ时所对应的变量个数。由交叉验证结果可以看出变量个数为55个时模型错误率最低,可信度最高。
基于此,本模型的建立依据以上55个分子标志物:ABI1、APPL2、ARHGAP5、ASPSCR1、ATAD2、BAG6、BAIAP2、BDH2、C9orf64、CARM1、CCT3、CEACAM6、COMMD10、CPSF3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FARS2、FDXR、FIBP、GRAP2、HEBP1、HSPA6、ISLR、ITPR2、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、OSBPL5、PAAF1、PNKP、PPM1B、RHOT2、RUFY1、SEL1L、SERPINB5、SF3A3、SH3GLB2、SHMT1、STX18、SWAP70、TBC1D5、TTC19、TUBB6、UGGT1、VCP、VRK2、YWHAH和ZG16(图7)。表1为55个分子标志物的具体信息。
表1 55个分子标志物的具体信息
实施例5蛋白预测模型的验证
首先是内部验证,验证该模型在自己数据内部的分类情况,将132例训练集样本用蛋白预测模型进行淋巴结转移概率估计(图8),绘制ROC曲线(图9),ROC曲线下面积为(AUC)1.00(95%CI:1.00)。当P值取0.498时,约登指数最大,此时对应灵敏度和特异度都别为100%。而根据NCCN指南的临床病理因素诊断,ROC仅为0.56。由此证明模型在训练集内部取得了很好的效果。
根据上述构建的T1期结直肠癌淋巴结转移预测模型,将本发明应用于后续样本的检测,检测过程如下:
1.收集内镜切除石蜡切片样本(10μm/片*5片);
2.收集切片上的肿瘤组织;
3.样本制备(1~3的制备过程同实施例2);
4.采用液相色谱串联质谱技术(LC-MS)进行检测,得到液相色谱的数据;将上述数据利用Firmiana进行肽段蛋白匹配;所有数据均使用Firmiana(V1.0)进行处理。具体过程和参数同实施例2中。
5.将检测到的蛋白表达情况输入55个蛋白预测模型,得出淋巴结转移预测概率。
其中,验证集1中样本均为内镜下手术获取,使用由训练集得到的蛋白模型预测每一个患者的淋巴结转移概率(图10),随后绘制ROC曲线(图11),验证集ROC曲线下面积为0.96(95%CI:0.91-1.00),蛋白预测模型在训练集1中的灵敏度为1.00,特异度为0.943,而NCCN指南AUC仅0.49。这一结果说明该预测模型能够有效预测T1期结直肠癌患者是否存在淋巴结转移,且适用于内镜治疗的患者,在临床诊断中有潜在的巨大价值。
验证集2为前瞻性验证的数据集,使用由训练集得到的蛋白模型预测每一个患者的淋巴结转移概率(图12),随后绘制ROC曲线(图13),验证集ROC曲线下面积为0.93(95%CI:0.85-1.00),蛋白预测模型在训练集2中的灵敏度为0.89,特异度为0.84,而NCCN指南AUC仅有0.55。这一结果进一步验证了55个蛋白预测模型能够有效预测T1期结直肠癌患者是否存在淋巴结转移。
实施例6蛋白模型的应用
根据前述实施例所得到的模型合并3个数据集的221例患者,根据模型所得到的P值,以精确度100%为前提,即在以保留尽可能多的淋巴结不转移患者为前提下100%区分出淋巴结转移患者,将数据区分为高危和低危两组(图14)。高位组也就是在内镜切除肿瘤后建议追加补救手术的患者,而低危组则是无需追加补救手术的患者(图15)。可以看到通过蛋白质组学结果机器学习得到的包含55个分子的预测模型,在对于患者是否存在淋巴结转移的区分上远远好于根据临床病理因素区分的NCCN指南。
实施例7模型的简化
为了方便之后临床的转化与使用,在55个预测分子中,根据wilcoxon rank-sum检验p值小于0.05且在两组样本中表达量有两倍及以上的差异,筛选了在所有221例患者中淋巴结转移和淋巴结不转移组别中表达量存在显著差异的分子,共得到19个分子:ABI1、ATAD2、BAIAP2、CEACAM6、COMMD10、CPSF3、FARS2、ISLR、ITPR2、OSBPL5、PAAF1、RHOT2、SEL1L、SERPINB5、SHMT1、SWAP70、TTC19、VRK2和ZG16。
随后,利用logistics回归在221例患者中进行简化模型的建立,通过logistics回归算法的进一步筛选,得到了9个分子标志物:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2,并用这九个分子标志物,建立了一个方便于临床使用与转化的简化模型。
该模型能够有效区分T1期结直肠癌淋巴结转移与不转移的患者(图16),ROC曲线下面积为0.82,95%CI为0.77-0.88。
实施例8对不同验证集进行概率计算
采用同样的检测方法对两个不同的训练集进行预测概率计算,验证集1包含42例患者,验证集2包含47例患者。利用前文所述的蛋白预测模型对验证集淋巴结转移概率进行计算。阳性患者概率超过0.5,数值越大,越接近样本实际类型,准确率就越高;阴性患者概率低于0.5,数值越小,越接近样本实际类型,准确率就越高。
验证集1,7例淋巴结转移阳性患者预测转移概率如下:
0.899 0.853 0.807 0.674 0.672 0.645 0.628
验证集1,35例淋巴结转移阴性患者预测转移概率如下:
验证集2,9例淋巴结转移阳性患者预测转移概率如下:
0.829 0.797 0.761 0.590 0.581 0.489 0.473 0.455 0.425
验证集2,38例淋巴结转移阴性患者预测转移概率如下:
由上述结果可知,本发明提供的分子标志物组合的预测是否存在结直肠癌淋巴结转移的准确率很高。
最后,上述具体实施方法仅用以说明本发明的技术方案,而非对其限制。

Claims (20)

1.一种构建检测结直肠癌淋巴结转移的模型的方法,其特征在于,所述结直肠癌的分期为T1期,所述方法包括:
(1)初步分析步骤:对临床数据进行初步分析,得到候选标志物;
(2)分析步骤:利用机器学习方法,对所述临床数据和所述候选标志物进行分析,得到分子标志物组合与参数;根据所述分子标志物组合以及所述的参数得到所述的模型;
所述分子标志物组合包括ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2。
2.如权利要求1所述的方法,其特征在于,所述分子标志物组合还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
3.如权利要求1所述的方法,其特征在于,还包括:
在所述(1)之前,还包括:
数据获取步骤:获取结直肠癌手术后的临床数据;和/或,预处理步骤:对所述结直肠癌手术后的临床数据进行分类分组,得到建模组临床数据和验证组临床数据,并完成蛋白质鉴定;
和/或,在所述(2)之后,还包括:
验证步骤:基于所述分析步骤和所述验证组临床数据,计算接受者特异性曲线的线下面积、灵敏度和特异性;并根据所述线下面积、灵敏度和特异性判断处理的准确性。
4.如权利要求3所述的方法,其特征在于,所述临床数据通过LC-MS技术得到,使用DIA检测方式采集蛋白质表达量数据;优选地,通过Firmiana软件进行肽段匹配;更优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库。
5.如权利要求1所述的方法,其特征在于,所述(1)中,所述候选标志物的筛选标准为蛋白丰度大于等于30%;优选地,所述筛选标准为wilcoxon rank-sum检验p值小于0.1;更优选地,所述筛选标准为wilcoxon rank-sum检验p值小于0.05且在两组样本中表达量有两倍及以上的差异。
6.如权利要求1所述的方法,其特征在于,所述(2)中,所述分析包括以下至少一种:Lasso-logistic回归、随机森林方法、支持向量机方法、决策树方法、k近邻方法、朴素贝叶斯方法和/或AdaboDFSt方法;优选地,所述分析为Lasso-logistic回归和/或随机森林方法。
7.如权利要求1所述的方法,其特征在于,所述(2)中,所述分析通过L1惩罚对自变量的系数进行压缩,选择非0系数的参数;优选地,进行所述分析后继续进行第二次回归分析,所述第二次回归分析使用随机森林方法和/或Lasso-logistic回归。
8.如权利要求1所述的方法,其特征在于,所述模型能够有效区分结直肠癌淋巴结转移与结直肠癌非淋巴结转移,当概率大于等于0.5,则判断为结直肠癌淋巴结转移阳性;概率小于0.5,则判断为结直肠癌淋巴结转移阴性。
9.一种结直肠癌淋巴结转移的预测模型,其特征在于,所述预测模型通过如权利要求1~8中任一项所述的方法构建得到。
10.一种体外样本是否为结直肠癌淋巴结转移的预测方法,其特征在于,所述方法包括将体外样本的蛋白质表达量数据输入如权利要求9所述的预测模型,得到样本是否为结直肠癌淋巴结转移的结果;所述蛋白质表达量数据包括以下蛋白质的表达量数据:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;所述预测方法优选为非诊断目的。
11.一种用于预测结直肠癌淋巴结转移的系统,其特征在于,所述系统包括:(1)数据接收模块:用于接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据包括以下蛋白质的表达量数据:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,所述蛋白质表达量数据还包括以下蛋白质的表达量数据:APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;
(2)判断并输出模块:用于在所述接收或输入完成后,通过如权利要求9所述的预测模型,输出对所述血浆样本的个体是否为结直肠癌淋巴结转移的判断结果。
12.一种分子标志物在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用;其中,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
13.一种试剂,其特征在于,所述试剂用于检测分子标志物的表达水平,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
14.如权利要求13所述的试剂,其特征在于,所述表达水平为蛋白表达水平和/或mRNA转录水平;优选地,所述试剂为与所述分子标志物特异性结合,或者与编码所述分子标志物的核酸特异性杂交的生物分子试剂;更优选地,所述生物分子试剂选自引物、探针和抗体;进一步更优选地,所述试剂为用于转录组和/或蛋白质组测序的试剂。
15.一种用于检测分子标志物的试剂在制备预测和/或诊断结直肠癌淋巴结转移的试剂盒中的应用,其特征在于,所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
16.一种分子标志物组合,其特征在于,所述分子标志物组合包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH。
17.一种试剂盒,其特征在于,所述试剂盒包含如权利要求14所述的试剂和如权利要求16所述的分子标志物组合。
18.一种非诊断目的的预测结直肠癌淋巴结转移的方法,其特征在于,所述方法包括检测待测血浆样本中的分子标志物的表达水平;所述分子标志物包括以下一种或多种蛋白质:ATAD2、CEACAM6、COMMD10、FARS2、ITPR2、RHOT2、SERPINB5、SWAP70和VRK2;优选地,还包括ABI1、BAIAP2、CPSF3、ISLR、OSBPL5、PAAF1、SEL1L、SHMT1、TTC19和ZG16;更优选地,还包括APPL2、ARHGAP5、ASPSCR1、BAG6、BDH2、C9orf64、CARM1、CCT3、CYP27A1、DNAJC8、DNM1L、EIF2B3、ETFA、FAAH、FDXR、FIBP、GRAP2、HEBP1、HSPA6、MANBA、MPG、MYL6、MYO1A、NDUFS3、NUP107、PNKP、PPM1B、RUFY1、SF3A3、SH3GLB2、STX18、TBC1D5、TUBB6、UGGT1、VCP和YWHAH;
所述表达水平为蛋白表达水平和/或mRNA转录水平。
19.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时,可实现如权利要求11所述的系统的功能,或实现如权利要求18所述的预测结直肠癌淋巴结转移的方法的步骤。
20.一种电子设备,其特征在于,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求11所述的系统的功能,或实现如权利要求18所述的预测结直肠癌淋巴结转移的方法的步骤。
CN202310336137.3A 2023-03-31 2023-03-31 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型 Pending CN116469471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310336137.3A CN116469471A (zh) 2023-03-31 2023-03-31 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310336137.3A CN116469471A (zh) 2023-03-31 2023-03-31 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型

Publications (1)

Publication Number Publication Date
CN116469471A true CN116469471A (zh) 2023-07-21

Family

ID=87178150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310336137.3A Pending CN116469471A (zh) 2023-03-31 2023-03-31 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型

Country Status (1)

Country Link
CN (1) CN116469471A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866413A (zh) * 2021-09-29 2021-12-31 上海市同济医院 一种结直肠癌诊断标志物及其应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866413A (zh) * 2021-09-29 2021-12-31 上海市同济医院 一种结直肠癌诊断标志物及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AOJIA ZHUANG: ""Proteomics Characteristics Reveal the Risk of T1 Colorectal Cancer Metastasis to Lymph Nodes"", 《BIORXIV》, pages 1 - 50 *

Similar Documents

Publication Publication Date Title
Srinivasan et al. Accurate diagnosis of acute graft-versus-host disease using serum proteomic pattern analysis
CN112071363B (zh) 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法
CN115575636B (zh) 一种用于肺癌检测的生物标志物及其系统
Kumar et al. Biomarkers of diseases in medicine
CN115798712B (zh) 一种诊断待测者是否是乳腺癌的系统以及生物标志物
US20170168058A1 (en) Compositions, methods and kits for diagnosis of lung cancer
CN111370061A (zh) 基于蛋白标记物与人工智能的癌症筛查方法
CN115144599A (zh) 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统
CN115128285B (zh) 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统
CN114822854B (zh) 胃黏膜病变进展及胃癌相关尿蛋白标志物及其应用
CN116469471A (zh) 一种利用蛋白质组学检测t1期结直肠癌淋巴结转移的模型
CN114496220A (zh) 一种发掘和检测肿瘤初步筛选指标的荧光探针快速设计方法
CN115044665A (zh) Arg1在制备脓毒症诊断、严重程度判断或预后评估试剂或试剂盒中的应用
CN112037852A (zh) 一种t1期结直肠癌淋巴结转移预测方法和系统
CN117079710B (zh) 生物标志物及其在预测和/或诊断utuc肌肉浸润中的应用
CN112375832A (zh) 一种用于表征肺腺癌气阴两虚证的肠道菌群组合及筛选及模型建立方法
CN117187385B (zh) 生物标志物在制备预测和/或诊断utuc的试剂盒中的应用
CN117089621A (zh) 生物标志物组合及其在预测结直肠癌疗效中的应用
CN116735889B (zh) 一种用于结直肠癌早期筛查的蛋白质标志物、试剂盒及应用
CN115792247B (zh) 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用
CN117004729B (zh) 生物标志物及其在预测和/或诊断utuc进展时间中的应用
CN117079710A (zh) 生物标志物及其在预测和/或诊断utuc肌肉浸润中的应用
CN116246710A (zh) 一种基于集群分子的结直肠癌预测模型及应用
CN118150830A (zh) 蛋白标志物组合在制备结直肠癌早期诊断产品中的应用
CN117233389A (zh) 用于快速鉴定急性髓系白血病中cebpa双突变的标志物

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination