CN115472293A - 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 - Google Patents
一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 Download PDFInfo
- Publication number
- CN115472293A CN115472293A CN202211139619.1A CN202211139619A CN115472293A CN 115472293 A CN115472293 A CN 115472293A CN 202211139619 A CN202211139619 A CN 202211139619A CN 115472293 A CN115472293 A CN 115472293A
- Authority
- CN
- China
- Prior art keywords
- serum
- diagnosis model
- lung adenocarcinoma
- metabolic
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
- G01N27/64—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode using wave or particle radiation to ionise a gas, e.g. in an ionisation chamber
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Toxicology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法,该构建方法包括:使用MALDI‑MS技术对患病血清样本和对照血清样本进行检测,获得两种样本的原始代谢指纹图谱;将原始指纹代谢图谱进行图谱预处理,得到血清代谢指纹;对血清代谢指纹进行机器学习,构建单模态诊断模型;获取两种血清样本的CEA蛋白含量;联合单模态诊断模型得分和CEA含量,采用机器学习方法构建得到所述的肺腺癌多组学诊断模型。本发明提供的诊断模型实现了代谢组学和蛋白质肿瘤标志物CEA的双模态分析,大大提高了肺腺癌筛查的灵敏度、准确性,且模型构建方法简单,方便快捷,检测成本低,可用于大规模筛查,易于临床的推广和应用。
Description
技术领域
本发明属于分析技术领域,具体涉及一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法。
背景技术
肺腺癌的预后与分期密切相关,早期诊断是提高生存率的前提。高危人群低剂量螺旋CT筛查将肺癌5年死亡率降低了24%。但随着CT的普及,伴随出现肺部结节过度诊断和治疗问题日益突出,假阳性率达96%,不仅给患者带来严重心理负担,也造成国家医疗卫生资源的巨大浪费。因此,肺腺癌早期诊断以及肺部结节良恶性鉴别诊断是临床诊治痛点和研究热点,也是健康中国建设和经济发展的重大需求。
目前,临床对肺癌的诊断有多种方法:组织病理学是肿瘤诊断的金标准,但早期肺癌(原位和ⅠA期肺癌)直径多小于1cm,病灶常因呼吸而移动,定位困难,重复穿刺会带来严重的创伤和并发症,因此组织病理学检测不适合于肺癌早期诊断;低剂量螺旋CT假阳性率高,存在辐射暴露和过度诊断的风险,仅适用于高危人群肺癌筛查,无法进行早期诊断;临床常规应用的血清学肿瘤标志物如:CEA、SCC、Cfra21-1和NSE等对肿瘤的辅助诊断、鉴别诊断具有一定价值,但其单独用于肺癌早期诊断的敏感性和特异性都很低,联合检测在临床I期肺癌检出率不超过20%,远不能满足临床需求;痰脱落细胞学虽然便捷经济、无创,病人接受度高,但敏感性很低,只能对肺癌诊断起提示作用。
近来,代谢组学被认为是基因组学和蛋白组学的延伸,是“组学”研究的最终方向。它跳过生命体内的复杂和无效调控过程,通过对代谢物的分析给出最终的、整体的结果,这是其在健康评估、疾病诊断、疗效评价等方面巨大应用前景的优势所在。但肺癌的发生发展涉及复杂的生物学机制,单模态数据对致病因素的分析仍有许多不足。将血清代谢指纹(SMF)与临床可访问数据(例如,传统的肿瘤标志物或CT特征)相结合的系统模型将优于单个生物标志物或一组选定的生物标志物。然而,由于多种模式的维度不一致和生物系统的内在异质性,传统途径未能将SMF和其他数据耦合用于临床。
因此,本领域亟需构建一种基于血清代谢指纹的综合多模态平台,该平台对于精准诊断使用具有重要意义。
发明内容
为解决现有技术中肺腺癌早期筛查灵敏度和准确性差、检测通量低以及多模态检测模型构建困难等问题,本发明公开了一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法,该模型能实现双模态数据检测,提高了早期肺腺癌筛查的灵敏度和准确度,还解决了传统检测方法检测通量低的问题。另外,该模型构建方法简单,方便快捷,检测成本低,易于临床的推广和应用。
为解决上述问题,本发明首先提供了一种基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,包括以下步骤:
S1,使用MALDI-MS技术对患病血清样本和对照血清样本进行代谢检测,获得两种样本的原始代谢指纹图谱;
S2,将所述的原始指纹代谢图谱进行图谱预处理,得到样本的血清代谢指纹;
S3,采用机器学习方法对所述的血清代谢指纹进行训练,构建单模态诊断模型;
S4,获取所述患病血清样本和对照血清样本的CEA蛋白含量;
S5,联合步骤S3中单模态诊断模型的得分和步骤S4得到的CEA含量作为输入,采用机器学习方法构建双模态诊断模型,即所述的肺腺癌多组学诊断模型。
优选地,所述的机器学习方法包括支持向量机、神经网络或高斯朴素贝叶斯算法中的任意一种或多种。
优选地,步骤S2中,所述的图谱预处理包括:降噪、曲线平滑、基线校正、谱峰提取。
一些实施例中,步骤S3具体包括:
S3.1,将步骤S2得到的患病血清样本和对照血清样本的所述血清代谢指纹划分成对应的训练集和测试集;
S3.2,依次使用主成分分析和pearson相关性分析在训练集上对血清代谢指纹进行特征选择,得到代谢特征;并进一步使用支持向量机在训练集上进行模型构建,获得单模态初诊断模型;
S3.3,在所述测试集上测试单模态初诊断模型,获取单模态诊断模型。
一些实施例中,步骤S5具体包括:
S5.1,联合步骤S3中单模态诊断模型的得分和步骤S4得到的CEA含量作为输入,使用高斯朴素贝叶斯算法在所述训练集上进行双模态初诊断模型的构建;
S5.2,在所述测试集上测试双模态初诊断模型,获取双模态诊断模型。
优选地,所述步骤S1具体包括:
S1.1,采集肺腺癌患者和非肺腺癌对照者的血清样本,并准备纳米基质材料;
S1.2,将血清样本和纳米基质材料分别用去离子水稀释配制得到待测血清样本和纳米基质悬浮液;
S1.3,在LDI-MS质谱靶板上进行待测血清样本点样,室温干燥后进行基质悬浮液点样,室温干燥;
S1.4,在LDI-TOF-MS中检测待测血清样本,获得血清样本的原始代谢指纹图谱。
优选地,步骤S1.2中,血清样本被稀释10倍,纳米基质悬浮液的浓度为1mg/mL。
一些实施例中,所述的纳米基质材料包括铁纳米颗粒、银纳米颗粒、金纳米颗粒等金属纳米材料以及金属与无机材料结合的复合纳米材料,以保证其高比热、低热导的热传导特性、等离子体激元效应、良好的紫外光吸收以及表面粗糙的孔洞结构。所述的纳米基质材料可市购,也可实验室自制。
本发明另一方面还提供了一种根据前面任一项所述的构建方法构建而得的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法。
本发明另一方面还提供了一种前面所述的基于血清代谢指纹的肺腺癌多组学诊断模型的使用方法,包括以下步骤:
(1)取待检血清样本,采用MALDI-MS技术进行分析,得到该待检血清样本的原始代谢指纹图谱;同时检测待检血清样本中的CEA含量;
(2)对所述原始代谢指纹图谱进行图谱预处理,得到该样本的血清代谢指纹;
(3)将该样本的CEA含量和血清代谢指纹输入所述的肺腺癌多组学诊断模型中,该模型根据恶性概率,给出0-1的得分。
进一步地,当模型得分大于cutoff值,则表示受试者具有肺腺癌的患病危险,需要进行进一步CT检查或手术活检;当模型得分不高于cutoff值,则表示该受试者不具有肺腺癌的患病危险,无需进一步检查。
相对于现有技术,本发明的有益效果是:
1、本发明提供的诊断模型通过获取样本的血清代谢指纹和CEA含量信息,实现代谢组学和蛋白质肿瘤标志物CEA的双模态分析,最终快速、便捷的筛选出肺腺癌高发人群,缩小了肺腺癌筛查的范围。
2、相较于传统的单模态分析方法,本发明诊断模型提高了肺腺癌筛查的灵敏度、准确性和检测通量,且模型构建方法简单,方便快捷,大大降低了筛查工作量和成本,适合大规模筛查,易于临床的推广和应用。
3、本发明诊断模型中的血清代谢组学分析大多基于早期肺腺癌患者的血清样品(超70%),因此,本发明血清代谢组学情况与要筛查的高危人群的血清代谢组学情况匹配度高,更适合肺腺癌的早期筛查。
附图说明
图1为本发明基于血清代谢指纹的肺腺癌多组学诊断模型的构建过程示意图。
图2为铁纳米颗粒表征结果,其中,
a为SEM图像;
b为TEM图像;
c为动态光散射测量;
d为材料的光学吸收光谱。
图3为建立的本地血清代谢指纹图谱数据库示意图;其中,
a为肺腺癌和肺良性疾病(肉芽肿)的典型血清代谢质谱图(插图为经病理学确认的组织H&E染色图像);
b为原始代谢指纹图谱经预处理提取出的血清代谢指纹图谱。
图4为血清代谢指纹t分布随机邻域嵌入(t-SNE)降维结果可视化,其中,
a表示训练集中的结果;
b表示测试集中的结果。
具体实施方式
以下将结合附图和实施例对本发明的技术方案做进一步的说明。
如前所述,鉴于现有技术的不足,本发明申请人经长期研究,提出本发明的技术方案,制备流程如图1所示:首先利用MALDI-MS技术从复杂的生物样品中捕获代谢物,从而敏感和选择性的收集代谢物(100~1000Da)的代谢指纹,建立本地血清代谢指纹图谱数据库;利用机器学习方法学习代谢指纹,构建单模态诊断模型,输出单模态诊断模型的分数;进一步联合样品临床指标CEA含量,通过机器学习构建双模态诊断模型,实现LUAD(肺腺癌)的早期诊断。
术语
本发明所述的“MALDI-MS技术”指:基于纳米基质材料的LDI-MS技术。
实施例1
下面对本发明的实验过程及实验结果进行详细说明。
本发明基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法和效果验证如下:
1、研究对象
本申请研究对象来自2016年11月至2018年5月于上海市胸科医院就诊或体检的2276名受试者,其中320名肺部良性疾病患者、958名肺腺癌患者、998名健康对照者。良性疾病患者包括肺炎、慢性阻塞性肺病、结核等。肺腺癌患者经组织病理学和/或细胞病理学确认,分期参考第8版TNM分期标准。健康对照者为门诊体检者。排除缺乏组织病理诊断、急性病史以及其他恶性肿瘤患者。受试者均签署知情同意书,该研究已完成临床试验注册(ChiCTR2000036938)。
本研究所有受试者随机分配到训练集(占总样本的2/3)和测试集(占总样本的1/3)。本研究入组的肺腺癌患者主要为早期肺腺癌患者(I期和II期),在训练集和测试集中分别占71.2%(458/643)和75.2%(237/315)。
2、MALDI-MS建立血清代谢指纹图谱数据库
受试者禁食一夜后采集全血样本,以消除饮食干扰。全血在4℃下以3500rpm离心10min获得血清,并保存于-80℃。使用Autoflex speed time-of-flight massspectrometry(Bruker,Germany)质谱仪获取质谱原始数据。
2.1仪器和设备
实验仪器包括:超纯水系统(Milli-Q,美国Millipore)、质谱仪(Autoflex SpeedTOF/TOF,德国Bruker)、透射电镜(2100F,日本JEM)、扫描电镜(S-4800,日本Hitachi)、纳米粒度电位仪(Mastersizer 3000,英国Malvern)
实验耗材包括:移液器、10μL枪头、100μL枪头、1.5mL离心管、记号笔、手套、口罩。
2.2纳米基质材料的制备和表征
(1)称取0.60g氯化铁六水化合物、0.15g柠檬酸三钠和0.96g乙酸钠依次溶解在乙二醇溶液中,经超声处理使溶液混合均匀。
(2)将上述混合溶液转移至容量为50mL的反应器,加热至200℃下保持10h,得到三价铁纳米粒子。
(3)将上述得到的三价铁纳米粒子用乙醇和去离子水洗涤数次,直至上清液无色,然后将最终产品在60℃下干燥12小时,真空中储存备用。
为了表征上述制备得到的三价铁纳米颗粒,本研究使用S-4800扫描电镜获得SEM图像;使用JEM-2100F仪器记录透射电子显微镜(TEM)图像;动态光散射测量在Nano ZS仪器上(Malvern,Worcestershire,UK)进行;材料的光学吸收光谱在UV1900 UV-Vis光谱仪(Aucybest,中国)上收集。表征结果如图2所示。
2.3血清MALDI-MS检测
使用基于上述制得的三价铁纳米颗粒的增强激光解吸电离飞行时间质谱技术(MALDI-MS技术),获得血清样本代谢指纹图谱,具体包括以下步骤:
(1)制备纳米基质悬浮液:将步骤2.2制得到的三价铁纳米颗粒用去离子水稀释为1mg/mL;
(2)将受试者血清样本用去离子水稀释10倍;
(3)在质谱靶板上进行样品制备:每个稀释后的血清样本或标准品点样1μL,室温下干燥;
(4)在质谱靶板上进行基质制备:每个基质悬浮液点样1μL,室温下干燥;
(5)采用LDI-TOF-MS进行血清代谢指纹采集。
其中,激光器源为Nd:YAG激光器,波长为355nm,最大频率为2kHz。质谱数据采集模式设定为正离子反射模式,所检测的寡核苷酸分子量范围设定为100到1000Da。在实验进行过程中,常规参数激光频率设置为1000Hz,激光强度设置为70%,得到的每次实验数据为累加2000次激光轰击(laser shots)所得的叠加图谱。使用标准分子进行质量校准,以确保精确的质量测量并避免板内偏差。将所有血清样品随机滴在多个384孔靶板上,以减少由于样品类型分布不均匀引起的系统误差和板间差异。另外,为了增强诊断结果的再现性和稳定性,进行了五次独立实验以消除个体内偏差。在代谢物鉴定过程中,只有质谱信噪比(signal-to-noise,S/N)大于3的信号被用于基于精确质量比对的分子识别与鉴定。除精确质量比对方法(±0.05Da)外,对于选定的特定小分子,将其质谱峰的二级质谱的分子峰(来自生物样品和标准品)进行相互比对,以最终确认待测代谢物。
2.4血清肿瘤标志物的测定
使用癌胚抗原定量测定试剂盒(电化学发光法)(Roche)对2276名受试者的血清样本进行CEA含量检测,检测仪器为Roche Cobas e601,cutoff值参阅试剂盒说明书。
2.5肺腺癌多组学诊断模型的构建和得分计算
2.5.1对血清代谢指纹图谱进行模型训练,实现对肺腺癌的初步预测
(1)通过步骤2.3,对2276名受试者的血清代谢指纹图谱成像,成像结果如图3中的a图所示,图中上半部分为基质辅助激光解吸电离飞行时间质谱检测疾病样本的指纹图谱;图中下半部分为基质辅助激光解吸电离飞行时间质谱检测肺部良性疾病样本的指纹图谱;
(2)对2276个血清代谢指纹谱图进行预处理:首先使用高斯滤波,设置σ=1,进行降噪和曲线平滑;然后使用Top-Hat操作进行基线校正;最后通过局部最大值处理,提取最终代谢分子特征。最终得到2316个100-1000Da范围内的特征信号,构成本发明所述的血清代谢指纹数据库。特征信号图谱如图3中的b图所示,图中上半部分为基质辅助激光解吸电离飞行时间质谱检测958例肺腺癌患者血清样本作为患病样本的特征信号图谱,图中下半部分为基质辅助激光解吸电离飞行时间质谱检测1318例健康样本和肺部良性疾病样本作为对照血清样本的特征信号图谱;
(3)将预处理后的2276个样本随机划分成训练集(占总样本的2/3)和测试集(占总样本的1/3),其中训练集包括643例肺腺癌患者、214例肺部良性疾病患者和669例健康对照者,测试集包括315例肺腺癌患者、106例肺部良性疾病患者和329例健康对照者。这里还要说明的是,本研究入组的肺腺癌患者主要为早期肺腺癌患者(I期和II期),在训练集和测试集中分别占71.2%(458/643)和75.2%(237/315)。
(4)对训练集进行主成分分析(PCA),对PCA主成分分析拟合出多个主成分,初步选取前75个主成分(PC1-PC75)用于进一步分析;经pearson相关性分析后,剔除PC38,其余74个主成分输入到支持向量机(SVM)进行模型训练,训练得到单模态初诊断模型。
具体地:采用10折交叉验证对SVM在训练集上进行模型训练,SVM参数为:C=2.7944500000000003,tol=0.0001,coef0=0,kernel=rbf,class_weight=balanced,degree=3,gamma=auto,probability=True。
(5)将测试集在单模态初诊断模型中进行测试,获取单模态诊断模型,用于获得代谢分子评分模块的预测分数。
2.5.2联合代谢分子评分模块和CEA含量构建肺腺癌多组学诊断模型
(1)在训练集中,以步骤2.5.1得到的代谢分子评分模块的预测分数(即单模态诊断模型得分)和经步骤2.4检测得到的样本血清CEA含量作为联合输入,采用高斯朴素贝叶斯(GaussianNB)算法进行模型训练,获取双模态初诊断模型。
(2)将测试集在双模态初诊断模型中进行测试,获取双模态诊断模型,即本发明所述的肺腺癌多组学诊断模型。测试集中,模型的诊断性能如表1所示:相较于传统的检测CEA含量的方法,本实施例提供的诊断模型的AUC值明显提高,达到0.753。
表1 CEA和实施例1诊断模型在测试集下的诊断性能对比
2.6对比实验
针对本实施例提取的训练集和测试集中肺腺癌患者和对照患者(健康者和肺部良性疾病患者)的血清代谢指纹,应用无监督方法t分布随机邻域嵌入(t-SNE)降维可视化,结果如图4所示,训练集和测试集中未能在腺癌与非腺癌之间发现明显的划分。
该对比实验表明,基于传统的线性降维方式并不能对腺癌与非腺癌作良好的划分。
另外,本发明还构建了未基于单模态诊断模型的对比模型:基于相同的训练集和测试集,将训练集经主成分分析和pearson相关性分析后选取的74个主成分与CEA结果直接联合,经支持向量机训练后得到对比模型,该对比模型的诊断性能如表2所示,其ROC曲线下面积(AUC值)较本发明方法构建的诊断模型低。
表2 CEA、实施例1诊断模型、对比模型在测试集下的诊断性能对比
2.7结论
在采用本发明模型进行肺腺癌早期诊断应用时,步骤如下:
(1)采集待检血清,按照上述2.3步骤进行MALDI-MS检测,得到原始代谢指纹图谱;按照上述步骤2.4进行血清CEA含量检测;
(2)将样本血清原始代谢指纹图谱按照上述步骤进行图谱预处理,得到待检血清代谢指纹图谱数据库;
(3)将血清代谢指纹图谱数据和血清CEA含量输入肺腺癌诊断模型中,得到模型分数,从而通过人体代谢情况和血清肿瘤标志物CEA含量辅助诊断肺腺癌。在实际应用中,如果受试者待检血清肺腺癌诊断模型得分大于0.0368,则表示受试者具有肺腺癌地患病危险,需要进行进一步CT检查或手术活检;如果受试者待检血清肺腺癌诊断模型得分小于等于0.0368,则表示该受试者不具有肺腺癌的患病危险,无需进一步检查。
实施例2
基于实施例1中的训练集和测试集,本实施例还采用基于深度学习的神经网络构建了单模态诊断模型和双模态诊断模型,具体为:
(1)使用神经网络对训练集进行模型训练,训练得到单模态初诊断模型:通过六个特征提取块对血清代谢指纹进行特征提取,每个特征提取块包含一个具有1024个隐藏单元的全连接层,然后进行Dropout操作和LeakyReLU激活后,通过一个全连接层计算诊断分数。
(2)将测试集在单模态初诊断模型中进行测试,获取单模态诊断模型。
(3)在训练集中,以本实施例步骤(2)得到的单模态诊断模型的得分和样本血清CEA含量作为联合输入,采用一个全连接层计算最终概率,获取双模态初诊断模型。
(4)将测试集在双模态初诊断模型中进行测试,获取双模态诊断模型。
本实施例模型构建中,使用二元交叉熵作为引导梯度下降的损失函数。Adam优化器的初始学习率为0.0001、0.9β1和0.999β2。整个模型训练过程在Nvidia GeForce RTX2070GPU(Nvidia公司,美国加州)上进行1000个epoch。
其中测试集在训练模型上的诊断性能如表3所示:相较于传统的检测CEA含量的方法,本实施例构建的诊断模型不仅AUC值明显提高,达到0.782-0.843,且在各组样本(0-IV期,0-II期)中均能达到优异效果。
表3 CEA和实施例2诊断模型在测试集下的诊断性能对比
综上所述,本发明提供了一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法,该方法构建得到的诊断模型通过获取样本的血清代谢指纹和CEA含量信息,实现了代谢组学和蛋白质肿瘤标志物CEA的双模态分析,相较于传统的单模态分析方法,本发明诊断模型提高了肺腺癌筛查的灵敏度、准确性和检测通量,且模型构建方法简单,方便快捷,大大降低了筛查工作量和成本,适合大规模筛查,易于临床的推广和应用。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,包括以下步骤:
S1,使用MALDI-MS技术对患病血清样本和对照血清样本进行代谢检测,获得两种样本的原始代谢指纹图谱;
S2,将所述的原始指纹代谢图谱进行图谱预处理,得到样本的血清代谢指纹;
S3,采用机器学习方法对所述的血清代谢指纹进行训练,构建单模态诊断模型;
S4,获取所述患病血清样本和对照血清样本的CEA蛋白含量;
S5,联合步骤S3中单模态诊断模型的得分和步骤S4得到的CEA含量作为输入,采用机器学习方法构建双模态诊断模型,即得到所述的肺腺癌多组学诊断模型。
2.如权利要求1所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,所述的机器学习方法包括支持向量机、神经网络或高斯朴素贝叶斯算法中的任意一种或多种。
3.如权利要求1所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,步骤S2中,所述的图谱预处理包括:降噪、曲线平滑、基线校正、谱峰提取。
4.如权利要求1所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,步骤S3具体包括:
S3.1,将步骤S2得到的患病血清样本和对照血清样本的所述血清代谢指纹划分成对应的训练集和测试集;
S3.2,依次使用主成分分析和pearson相关性分析在训练集上对血清代谢指纹进行特征选择;并进一步使用支持向量机在训练集上进行模型构建,获得单模态初诊断模型;
S3.3,在所述测试集上测试单模态初诊断模型,获取单模态诊断模型。
5.如权利要求4所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,步骤S5具体包括:
S5.1,联合步骤S3中单模态诊断模型的得分和步骤S4得到的CEA含量作为输入,使用高斯朴素贝叶斯算法在所述训练集上进行双模态初诊断模型的构建;
S5.2,在所述测试集上测试双模态初诊断模型,获取双模态诊断模型。
6.如权利要求1所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,所述步骤S1具体包括:
S1.1,采集肺腺癌患者和非肺腺癌对照者的血清样本,并准备纳米基质材料;
S1.2,将血清样本和纳米基质材料分别用去离子水稀释配制得到待测血清样本和纳米基质悬浮液;
S1.3,在LDI-MS质谱靶板上进行待测血清样本点样,室温干燥后进行基质悬浮液点样,室温干燥;
S1.4,在LDI-TOF-MS中检测待测血清样本,获得血清样本的原始代谢指纹图谱。
7.如权利要求6所述的基于血清代谢指纹的肺腺癌多组学诊断模型的构建方法,其特征在于,步骤S1.2中,血清样本被稀释10倍,纳米基质悬浮液的浓度为1mg/mL。
8.一种根据权利要求1-7中任一项所述的构建方法构建而得的基于血清代谢指纹的肺腺癌多组学诊断模型。
9.一种权利要求8所述的基于血清代谢指纹的肺腺癌多组学诊断模型的使用方法,其特征在于,包括以下步骤:
(1)取待检血清样本,采用MALDI-MS技术进行分析,得到该待检血清样本的原始代谢指纹图谱;同时检测待检血清样本中的CEA含量;
(2)对所述原始代谢指纹图谱进行图谱预处理,得到该样本的血清代谢指纹;
(3)将该样本的CEA含量和血清代谢指纹输入所述的肺腺癌多组学诊断模型中,该模型根据恶性概率,给出0-1的得分。
10.如权利要求9所述的使用方法,其特征在于,当模型得分大于cutoff值,则表示受试者具有肺腺癌的患病危险,需要进行进一步CT检查或手术活检;当模型得分不高于cutoff值,则表示该受试者不具有肺腺癌的患病危险,无需进一步检查。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139619.1A CN115472293A (zh) | 2022-09-19 | 2022-09-19 | 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139619.1A CN115472293A (zh) | 2022-09-19 | 2022-09-19 | 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115472293A true CN115472293A (zh) | 2022-12-13 |
Family
ID=84333286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211139619.1A Pending CN115472293A (zh) | 2022-09-19 | 2022-09-19 | 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115472293A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386716A (zh) * | 2023-06-06 | 2023-07-04 | 浙江省肿瘤医院 | 用于胃癌诊断的代谢物组学及方法 |
-
2022
- 2022-09-19 CN CN202211139619.1A patent/CN115472293A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386716A (zh) * | 2023-06-06 | 2023-07-04 | 浙江省肿瘤医院 | 用于胃癌诊断的代谢物组学及方法 |
CN116386716B (zh) * | 2023-06-06 | 2024-03-15 | 浙江省肿瘤医院 | 用于胃癌诊断的代谢物组学及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020259187A1 (zh) | 一种基于组织表面脂质指纹谱图的快速肿瘤组织判别方法 | |
Wang et al. | Integrative serum metabolic fingerprints based multi‐modal platforms for lung adenocarcinoma early detection and pulmonary nodule classification | |
Cheng et al. | Metabolomic biomarkers in cervicovaginal fluid for detecting endometrial cancer through nuclear magnetic resonance spectroscopy | |
KR102428314B1 (ko) | 소변의 라만 신호를 이용한 암 진단 방법 | |
Fang et al. | Fast discrimination of tumor and blood cells by label-free surface-enhanced Raman scattering spectra and deep learning | |
CN111863250A (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
Jiang et al. | CT-based hand-crafted radiomic signatures can predict PD-L1 expression levels in non-small cell lung cancer: a two-center study | |
CN115472293A (zh) | 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法 | |
Liu et al. | Detection of circulating genetically abnormal cells in peripheral blood for early diagnosis of non‐small cell lung cancer | |
Ji et al. | Bi-parametric magnetic resonance imaging based radiomics for the identification of benign and malignant prostate lesions: cross-vendor validation | |
CN117347643B (zh) | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 | |
CN108548923B (zh) | 肺小细胞癌早期特异性自身抗体panel诊断试剂盒 | |
Du et al. | Application of radiomics in precision prediction of diagnosis and treatment of gastric cancer | |
CN109425739B (zh) | 一组蛋白作为肿瘤标志物在制备恶性肿瘤诊断试剂和试剂盒中的用途 | |
Inagaki et al. | Comprehensive circulating microRNA profile as a supersensitive biomarker for early-stage lung cancer screening | |
Sun et al. | Radiomics nomogram for the prediction of Ki-67 index in advanced non-small cell lung cancer based on dual-phase enhanced computed tomography | |
Wei et al. | Establishment and validation of a mathematical diagnosis model to distinguish benign pulmonary nodules from early non-small cell lung cancer in Chinese people | |
Meng et al. | Computer-aided diagnosis evaluation of the correlation between magnetic resonance imaging with molecular subtypes in breast cancer | |
KR20120015978A (ko) | 대장암 진단용 저질량 이온 결정 방법 및 이를 이용한 대장암 진단 방법 | |
CN116577403A (zh) | 一种外泌体的分离检测方法及应用 | |
Norris et al. | Imaging mass spectrometry in clinical pathology | |
JP2018511811A (ja) | 子宮内膜癌の診断方法 | |
CN113484518B (zh) | 一种区分肺部疾病的诊断生物标志物 | |
Cheng et al. | SELDI-TOF MS profiling of serum for detection of laryngeal squamous cell carcinoma and the progression to lymph node metastasis | |
CN115458173A (zh) | 一种基于血清代谢指纹的肺部良恶性结节多组学鉴别诊断模型及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |