CN117347643B - 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 - Google Patents

用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 Download PDF

Info

Publication number
CN117347643B
CN117347643B CN202311651820.2A CN202311651820A CN117347643B CN 117347643 B CN117347643 B CN 117347643B CN 202311651820 A CN202311651820 A CN 202311651820A CN 117347643 B CN117347643 B CN 117347643B
Authority
CN
China
Prior art keywords
serum
mass spectrum
metabolic marker
machine learning
metabolic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311651820.2A
Other languages
English (en)
Other versions
CN117347643A (zh
Inventor
陈素明
万琼琼
阮先琴
郑杰
钟晟
刘彬
张晓光
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tailai Biotechnology Co ltd
Original Assignee
Chengdu Tailai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tailai Biotechnology Co ltd filed Critical Chengdu Tailai Biotechnology Co ltd
Priority to CN202311651820.2A priority Critical patent/CN117347643B/zh
Publication of CN117347643A publication Critical patent/CN117347643A/zh
Application granted granted Critical
Publication of CN117347643B publication Critical patent/CN117347643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及生物医学技术领域,并公开了一种用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用,该代谢标志物组合包括如下化合物:L‑酪氨酸、油酸、戊二酸、龙胆酸、L‑苏氨酸、L‑天冬氨酸、甘油二酯(36:4);采用本发明提供的代谢标志物组合作为肺部结节良恶性分类模型的输入信息,能够使该肺部结节良恶性分类模型ROC曲线的AUC值接近0.85的水平,不仅显著提高了肺部结节良恶性判断的准确性,还简化了肺部结节良恶性分析过程,有利于促进检测平台的大规模临床应用。

Description

用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和 应用
技术领域
本发明涉及生物医学技术领域,尤其是一种用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用。
背景技术
肺癌是第三大常见癌症,也是全球癌症死亡的主要原因之一。肺腺癌是肺癌的主要形式,几乎占全部肺癌的50%,由于常常在诊断时处于晚期,并且其具有较高的异质性,一般预后较差,平均5年生存率约20%。肺腺癌的症状和体征取决于肺腺癌的阶段,早期肺腺癌患者通常无明显症状,经常是在检查其他疾病的胸部X射线图像上意外发现肺结节。肺结节是指被肺实质包围的,直径不大于3 cm的类圆形或不规则病灶,边界可清晰可模糊。早期肺腺癌通常表现为孤立性肺结节,肺结节是肺腺癌最早的可检测阶段。但是肺结节以良性居多,对肺结节的良恶性进行区分是肺腺癌早期筛查与诊断的核心挑战。
目前临床上对肺结节的检出和分型主要依靠CT扫描和活检,CT影像检查对人体有辐射伤害。诊断结果依赖于人工阅片,常受到医生诊断肺结节时的主观性、经验不足和疲劳等因素的影响,有高达20%的假阳性率。活检是侵入性操作,易造成伤口感染,对患者造成的伤害较大。传统的支气管镜活检,诊断率很低,对3 cm以上的结节的诊断率大约为60%,对2cm以下的结节的诊断率仅为30%左右。为提升肺腺癌早期诊断的准确率、检测的便捷性以及能够对患者更微创友好,开发一种早期肺腺癌诊断平台是非常必要的。
代谢组学被认为是最接近表型的组学之一,因为包括肺腺癌在内的多种疾病往往会引起机体新陈代谢发生改变。因此,代谢组学在肺腺癌的预测、诊断和治疗方面具有巨大的潜力。MALDI-MS具有检测速度快、高通量和高灵敏度的优点,基于MALDI-MS的代谢组学越来越多地被应用于各种疾病的诊断。有研究曾使用纳米四氧化三铁作为基质,在正离子模式下用MALDI-MS分析血清或血浆代谢指纹谱,并结合机器学习,尝试对良性和恶性肺结节进行区分。但是,判断准确度较低,其利用机器学习模型区分良恶性肺结节的曲线下面积仅为0.7左右。
采用 MALDI-MS 能得到大量的血清或血浆代谢标志物信息,在所有这些代谢标志物中,存在一部分代谢标志物与肺腺癌的良恶性区分无关;同时,也存在一部分代谢标志物在肺腺癌的良恶性区分方面与其他代谢标志物之间存在冗余。这些额外的代谢标志物的存在对模型预测精度的提高几乎没有价值,反而给整个检测增加了额外的噪音,增加了模型的运行时间,提高了模型的复杂度,降低了模型的泛化性能。因此,寻找更可靠、更准确的代谢标志物用于准确判断肺部结节良恶性、简化分析过程并促进检测平台的大规模临床应用至关重要。
发明内容
鉴于以上所述现有技术的不足,本发明的目在于:寻找更可靠、更准确的代谢标志物,以准确判断肺部结节良恶性、简化分析过程并促进检测平台的大规模临床应用。
第一方面,本发明提供一种判断肺部结节良恶性的代谢标志物组合,其包括如下化合物:L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸、甘油二酯(36:4)。
第二方面,本发明提供一种判断肺部结节良恶性的代谢标志物组合的筛选方法,其包括以下步骤:
S1、收集若干个患肺结节病例的血清或血浆样本,并根据每个患肺结节病例的肺结节良恶性,给血清或血浆样本打上相应的标签;
S2、提取每个血清或血浆样本中的代谢物,并对每个血清或血浆样本中的代谢物进行MALDI质谱分析,而获得每个血清或血浆样本中代谢物的质谱数据;
S3、对每个血清或血浆样本中代谢物的质谱数据进行预处理,而获得每个血清或血浆样本的备选代谢标志物组合特征;
S4、将全部血清或血浆样本的备选代谢标志物组合特征作为样本数据划分为训练集和验证集,并利用所述训练集分别训练多个不同算法的机器学习模型,以及利用所述验证集评估每个机器学习模型的分类性能;
S5、选择步骤S4中分类性能最好的一个机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,选取排名靠前且能获得最好分类效果的多个代谢标志物特征所对应的代谢物作为潜在代谢标志物组合。
根据一种具体的实施方式,在步骤S2中,所述代谢物按照如下步骤进行提取:
S201、在所述血清或血浆样本中加入预冷的乙醇,得到混合物;
S202、将所述混合物震荡以使病毒失活、蛋白沉淀,接着在3~5 ℃下,以13000~17000g的转速离心10 min,得到离心样本;
S203、从每个离心样本中取等量的上清液作为代谢物。
根据一种具体的实施方式,在步骤S2中,使用纳米材料作为基质,在负离子模式下进行MALDI质谱分析。
根据一种具体的实施方式,在步骤S3中,对质谱数据进行预处理的方式包括:
S301、对每个血清或血浆样本的质谱数据进行质谱峰提取,得到相应的质谱图;
S302、将每个血清或血浆样本的质谱图与基质空白质谱图对齐,并去除血清或血浆样本的质谱图中质谱峰强度未超过所述基质空白质谱图中质谱峰强度设定倍数的质谱峰;
S303、将每个血清或血浆样本质谱图中剩余的质谱峰的强度归一化,得到质谱峰强度矩阵;
S304、从所述质谱峰强度矩阵中去除在全部血清或血浆样本质谱图中缺失值超过设定比例的质谱峰,并根据测定的质荷比,对质谱峰进行代谢物注释,得到所述备选代谢标志物组合特征。
根据一种具体的实施方式,步骤S4具体包括:
S401、建立分别基于支持向量机、多层感知器、K近邻算法、随机森林算法以及极端梯度提升算法的5个机器学习模型;
S402、利用网格搜索来自动优化每个机器学习模型的参数;
S403、将全部血清或血浆样本对应的备选代谢标志物组合特征作为样本数据划分为5份数据,轮流将其中4份数据作为训练集,将另一份数据作为验证集,直到每份数据均被用作验证集;
S404、利用所述训练集,采用五折交叉验证对每个机器学习模型进行参数优化,并根据每个机器学习模型在5个所述验证集上的平均分类性能,评估其分类性能。
根据一种具体的实施方式,采用极端梯度提升算法机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,再采用平均准确度下降法确定进行准确分类所需代谢标志物的数量;根据重要度依次增加代谢标志物特征数量,若增加的代谢标志物特征对提升分类效果无明显改善,则不再增加该代谢标志物特征,并将已增加的所有标志物作为判断肺部结节良恶性的代谢标志物组合。
第三方面,本发明提供一种检测本发明第一方面提供用于判断肺部结节良恶性的代谢标志物组合的产品在制备用于判断肺部结节良恶性的产品中的用途。
第四方面,本发明提供一种肺部结节分类方法,其包括:
获取待分类的血清或血浆样本,并提取所述血清或血浆样本中代谢物;
对所述血清或血浆样本中代谢物进行MALDI质谱分析,得到所述血清或血浆样本中代谢物的质谱数据;
根据所述血清或血浆样本中代谢物的质谱数据和本发明第一方面提供的用于判断肺部结节良恶性的代谢标志物组合对应的质荷比,得到代谢物标志物组合特征;
将所述代谢物标志物组合特征输入至预先训练完成的机器学习模型中,并由所述机器学习模型输出肺结节分类结果。
与现有技术相比,本发明的有益效果:
1、本发明提供了一种判断肺部结节良恶性的代谢标志物组合,实现在不显著降低肺部结节良恶性判断模型性能的前提下,简化了肺部结节良恶性分析过程,有利于促进检测平台的大规模临床应用。
2、本发明还提供了一种用于判断肺部结节良恶性的代谢标志物组合的筛选方法,先通过对血清或血浆样本中的小分子代谢物进行高覆盖度的质谱分析,得到备选代谢标志物组合的质谱数据,再将备选代谢标志物组合的质谱数据作为特征输入,利用机器学习模型对肺部结节良恶性分类;同时,利用嵌套交叉验证方法从众多机器学习模型中,选择分类性能好的机器学习模型对备选代谢标志物组合中的代谢标志物进行重要度排序,进而得到潜在代谢标志物组合;通过上述方法筛选出的代谢标志物组合,能够使肺部结节良恶性分类模型ROC曲线的AUC值达到0.85的水平。
附图说明
图1是本发明筛选用于判断肺部结节良恶性的代谢标志物组合的流程示意图;
图2是针对完质谱图的代谢物5个不同机器学习模型的分类性能图表;
图3是SVM模型采用不同数量代谢物特征作为输入信息对应的分类性能变化趋势图;
图4是5个不同机器学习模型对潜在代谢标志物组合进行筛选前后的正确性对比柱状图;
图5是5个不同机器学习模型对潜在代谢标志物组合进行筛选前后的敏感性对比柱状图;
图6是5个不同机器学习模型对潜在代谢标志物组合进行筛选前后的特异性对比柱状图;
图7是5个不同机器学习模型对潜在代谢标志物组合进行筛选前后的ROC-AUC对比柱状图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,本发明提供一种判断肺部结节良恶性的代谢标志物组合的筛选方法,其包括以下步骤:
S1、收集若干个患肺结节病例的血清或血浆样本,并根据每个患肺结节病例的肺结节良恶性,给血清或血浆样本打上相应的标签;
S2、提取每个血清或血浆样本中的代谢物,并对每个血清或血浆样本中的代谢物进行MALDI质谱分析,而获得每个血清或血浆样本中代谢物的质谱数据;
S3、对每个血清或血浆样本中代谢物的质谱数据进行预处理,而获得每个血清或血浆样本的备选代谢标志物组合特征;
S4、将全部血清或血浆样本的备选代谢标志物组合特征作为样本数据划分为训练集和验证集,并利用所述训练集分别训练多个不同算法的机器学习模型,以及利用所述验证集评估每个机器学习模型的分类性能;
S5、选择步骤S4中分类性能最好的一个机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,选取排名靠前且能获得最好分类效果的多个代谢标志物特征所对应的代谢物作为潜在代谢标志物组合。具体的,采用极端梯度提升算法机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,再采用平均准确度下降法确定进行准确分类所需代谢标志物的数量;根据重要度依次增加代谢标志物特征数量,若增加的代谢标志物特征对提升分类效果无明显改善,则不再增加该代谢标志物特征,并将已增加的所有标志物作为判断肺部结节良恶性的代谢标志物组合。
在实施时,首先步骤S1,收集患肺结节病例的血清或血浆样本共1099例,其中良性结节465例,恶性结节634例,且两组样本的性别、年龄均无显著性差异;然后,给每个血清或血浆样本打上相应的标签,便于后续的机器学习模型的处理。
接着,进入步骤S2,对血清或血浆样本的代谢物进行提取;其中,代谢物按照如下步骤进行提取:
S201、在所述血清或血浆样本中加入预冷的乙醇,使血清或血浆与乙醇的体积比是1:3,得到混合物;
S202、将混合物震荡1min以使病毒失活、蛋白沉淀;接着在4 ℃下,以13000~17000g的转速离心10 min,得到离心样本;
S203、从每个离心样本中取等量的上清液作为代谢物。
利用上述步骤提取血清或血浆样本中的代谢物后,使用纳米基质对代谢物进行MALDI质谱分析;具体过程为:将1 μL基质分散液滴加至靶板上,自然晾干;接着将0.5μL的血清或血浆样本覆盖在基质上,待样品干燥后,将靶板送入质谱仪中,在负离子模式下进行MALDI质谱分析,得到血清或血浆样本中各种代谢物的质谱数据;重复上述过程,直至获取所有血清或血浆样本的质谱数据。然后,将血清或血浆样本中各种代谢物作为备选代谢标志物组合,进行后续的质谱数据处理。
获得每个血清或血浆样本中备选代谢标志物组合的质谱数据后,进入步骤S3,对质谱数据进行预处理;具体预处理的方式包括:
S301、对每个血清或血浆样本的质谱数据进行质谱峰提取,得到相应的质谱图;其中,所有血清或血浆样本的质谱数据使用flexAnalysis软件进行特征峰提取,并按照信噪比S/N > 3,0.05 Da峰宽进行质谱峰提取,并将原始数据导出至“.txt”文件用于计算总离子流强度(Total Ion Chromatogram,TIC)。
S302、将每个血清或血浆样本的质谱图与基质空白质谱图对齐,并去除血清或血浆样本的质谱图中质谱峰强度未超过所述基质空白质谱图中质谱峰强度设定倍数的质谱峰;其中,再次使用0.05 Da的窗口,实现血清或血浆样本的质谱图与基质空白质谱图之间的对齐;而且,设定倍数为10倍。
S303、将每个血清或血浆样本质谱图中剩余的质谱峰的强度归一化,得到质谱峰强度矩阵;其中,使用TIC归一化法将质谱峰强度归一化。
S304、从所述质谱峰强度矩阵中去除在全部血清或血浆样本质谱图中缺失值超过20%的质谱峰,再用极端梯度提升算法根据这些质谱峰对良性和恶性肺结节样本进行分类。然后,从中选择对分类重要性贡献排名前十的质谱峰,再排除三个属于低丰度同位素的质谱峰,得到七个候选代谢物质谱峰。根据质谱峰的质荷比,对这些峰进行代谢物注释,得到所述备选代谢标志物组合特征。
获得每个血清或血浆样本的备选代谢标志物组合特征后,进入步骤S4,具体包括:
S401、建立5个不同算法类型的机器学习模型,具体包括:支持向量机(SVM)、多层感知器(MLP)、K近邻算法(KNN)、随机森林算法(RF)和极端梯度提升算法(XGBoost);同时,利用Python 3.10.1软件完成各个机器学习模型的建立和训练。
S402、利用网格搜索来自动优化每个机器学习模型的参数;其中,通过网格搜索可以遍历不同的参数组合;
S403、将全部血清或血浆样本对应的备选代谢标志物组合特征作为样本数据划分为5份数据,轮流将其中4份数据作为训练集,将另一份数据作为验证集,直到每份数据均被用作验证集;
S404、利用所述训练集,采用五折交叉验证对每个机器学习模型进行参数优化,并根据每个机器学习模型在5个所述验证集上的平均分类性能,评估其分类性能。
上述的步骤S403和S404是基于嵌套交叉验证的实现思路,该实现思路分为内外两层,每层均采用K折交叉验证法,外层将数据划分为不同的训练集和验证集,训练集用于内层交叉验证来优化超参数,验证集用于对内层优化好的参数进行性能评估。K折交叉验证法是将所有数据分为K份,轮流将其中的(K-1)份作为训练集,另一份作为试验集,重复K次,直至每个组都被用作验证集和训练集,通过计算,K个模型在验证集上的平均精度来得到最终模型的性能评估。
本发明通过使用外部和内部的五次五折交叉验证进行独立的训练和验证,能够更好地优化模型性能;同时,最终步骤S401中采用的5个不同算法的机器学习模型针对血清或血浆样本的完质谱图的各项性能指标数据表如图2所示,其中,5个不同算法的机器学习模型的ROC曲线的AUC值均能到0.83或以上的水平。
在评估出各个机器学习模型对完质谱图的分类性能后,进入步骤S5,由于极端梯度提升算法的分类性能较好且能够直接给出重要性排名的树形模型,故而选择极端梯度提升算法对所述备选代谢标志物组合特征中的每个代谢标志物峰进行重要度排序。再采用平均准确度下降法确定进行准确分类所需标志物的数量。根据重要度依次增加标志物峰数量,若选取一定数量标志物以后,再增加标志物对提升分类效果无明显改善,则不再增加代谢标志物。选取之前使用的对分类效果重要性较高的标志物作为判断肺部结节良恶性的代谢标志物组合。
对于机器学习模型而言,输入特征信息越丰富,其分类性能越好;以SVM算法为例,如图3所示,随着代谢标志物组合特征中代谢标志物数量的增加,SVM模型的预测性能有明显提升。但是,当代谢标志物特征数量大于7时,模型的预测性能开始稳定,不再有明显提升;因此,为了简化肺部结节良恶性分析过程并促进检测平台的大规模临床应用,通过上述方式,可以得到重要度最高的前7个代谢标志物特征对应的代谢物为:L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸、甘油二酯(36:4);如此,便将上述的7中代谢物作为用于判断肺部结节良恶性的代谢标志物组合;其详细信息如下表所示:
序号 中文名称 英文名称 平均分子量 质荷比(m/z) HMDB 类别
1 L-酪氨酸 L-Tyrosine 181.1885 218.0084 HMDB0000158 氨基酸
2 油酸 Oleic acid 282.4614 281.2467 HMDB0062703 脂肪酸
3 戊二酸 Glutaric acid 132.1146 131.0204 HMDB0000661 羧酸及其衍生物
4 龙胆酸 Gentisic acid 154.1210 153.0201 HMDB0000152 苯甲酸及其衍生物
5 L-苏氨酸 L-Threonine 119.1192 118.0387 HMDB0000167 氨基酸
6 L-天冬氨酸 L-Aspartic acid 133.1027 114.0147 HMDB0000191 羧酸及其衍生物
7 甘油二脂(36:4) DG(36:4) 616.9542 615.4599 HMDB0007476 糖脂类
而且,将上述代谢标志物组合对应的代谢标志物特征作为输入信息时,5个不同算法的机器学习模型的各项性能指标如下表所示:
机器学习模型 Accuracy Sensitivity Specificity ROC-AUC RP-AUC
KNN 0.776 0.833 0.697 0.846 0.862
RF 0.802 0.845 0.742 0.863 0.877
MLP 0.796 0.837 0.740 0.856 0.874
XGBoost 0.792 0.826 0.746 0.851 0.872
SVM 0.787 0.839 0.716 0.852 0.858
同时,结合图4~图7可知,选用筛选出的7个代谢标志物构成的代谢标志物组合作为机器学习模型的输入信息,对5个机器学习模型的各项性能指标基本没有降低,说明筛选出的7个代谢标志物构成的代谢标志物组合,实现在不显著降低肺部结节良恶性判断模型性能的前提下,简化了肺部结节良恶性分析过程,提高模型运算速率,有利于促进检测平台的大规模临床应用。
本发明还提供一种检测由L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸、甘油二酯(36:4)构成的代谢标志物组合的产品在制备用于判断肺部结节良恶性的产品中的用途。具体的,检测由L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸、甘油二酯(36:4)构成的代谢标志物组合的产品或用于判断肺部结节良恶性的产品为试剂、试纸、试剂盒或仪器。
本发明还提供一种肺部结节分类方法,其包括:
获取待分类的血清或血浆样本,并提取所述血清或血浆样本中代谢物;
对所述血清或血浆样本中代谢物进行MALDI质谱分析,得到所述血清或血浆样本中代谢物的质谱数据;
根据所述血清或血浆样本中代谢物的质谱数据和由L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸、甘油二酯(36:4)构成的用于判断肺部结节良恶性的代谢标志物组合对应的质荷比,得到代谢物标志物组合特征;
将所述代谢物标志物组合特征输入至预先训练完成的机器学习模型中,并由所述机器学习模型输出肺结节分类结果。
具体的,采用的机器学习模型可以采用支持向量机(SVM)、多层感知器(MLP)、K近邻算法(KNN)、随机森林算法(RF)和极端梯度提升算法(XGBoost)等算法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于判断肺部结节良恶性的代谢标志物组合的筛选方法,其特征在于,包括以下步骤:
S1、收集若干个患肺结节病例的血清或血浆样本,并根据每个患肺结节病例的肺结节良恶性,给血清或血浆样本打上相应的标签;
S2、提取每个血清或血浆样本中的代谢物,并对每个血清或血浆样本中的代谢物进行MALDI质谱分析,而获得每个血清或血浆样本中代谢物的质谱数据;
S3、对每个血清或血浆样本中代谢物的质谱数据进行预处理,而获得每个血清或血浆样本的备选代谢标志物组合特征;
S4、将全部血清或血浆样本的备选代谢标志物组合特征作为样本数据划分为训练集和验证集,并利用所述训练集分别训练多个不同算法的机器学习模型,以及利用所述验证集评估每个机器学习模型的分类性能;
S5、选择步骤S4中分类性能最好的一个机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,选取排名靠前且能获得最好分类效果的多个代谢标志物特征所对应的代谢物作为潜在代谢标志物组合;
其中,所述潜在代谢标志物组合包括如下化合物:L-酪氨酸、油酸、戊二酸、龙胆酸、L-苏氨酸、L-天冬氨酸和甘油二酯(36:4)。
2.根据权利要求1所述的筛选方法,其特征在于,在步骤S2中,所述代谢物按照如下步骤进行提取:
S201、在所述血清或血浆样本中加入预冷的乙醇,得到混合物;
S202、将所述混合物震荡以使病毒失活和蛋白沉淀,接着在3~5 ℃下,以13000~17000g的转速离心10 min,得到离心样本;
S203、从每个离心样本中取等量的上清液作为代谢物。
3.根据权利要求2所述的筛选方法,其特征在于,在步骤S2中,使用纳米材料作为基质,在负离子模式下进行MALDI质谱分析。
4.根据权利要求1所述的筛选方法,其特征在于,在步骤S3中,对质谱数据进行预处理的方式包括:
S301、对每个血清或血浆样本的质谱数据进行质谱峰提取,得到相应的质谱图;
S302、将每个血清或血浆样本的质谱图与基质空白质谱图对齐,并去除血清或血浆样本的质谱图中质谱峰强度未超过所述基质空白质谱图中质谱峰强度设定倍数的质谱峰;
S303、将每个血清或血浆样本质谱图中剩余的质谱峰的强度归一化,得到质谱峰强度矩阵;
S304、从所述质谱峰强度矩阵中去除在全部血清或血浆样本质谱图中缺失值超过设定比例的质谱峰,并根据测定的质荷比,对质谱峰进行代谢物注释,得到所述备选代谢标志物组合特征。
5.根据权利要求4所述的筛选方法,其特征在于,步骤S4具体包括:
S401、建立分别基于支持向量机、多层感知器、K近邻算法、随机森林算法以及极端梯度提升算法的5个机器学习模型;
S402、利用网格搜索来自动优化每个机器学习模型的参数;
S403、将全部血清或血浆样本对应的备选代谢标志物组合特征作为样本数据划分为5份数据,轮流将其中4份数据作为训练集,将另一份数据作为验证集,直到每份数据均被用作验证集;
S404、利用所述训练集,采用五折交叉验证对每个机器学习模型进行参数优化,并根据每个机器学习模型在5个所述验证集上的平均分类性能,评估其分类性能。
6.根据权利要求5所述的筛选方法,其特征在于,采用极端梯度提升算法机器学习模型对所述备选代谢标志物组合特征中的每个代谢标志物特征进行重要度排序,再采用平均准确度下降法确定进行准确分类所需代谢标志物的数量;根据重要度依次增加代谢标志物特征数量,若增加的代谢标志物特征对提升分类效果无明显改善,则不再增加该代谢标志物特征,并将已增加的所有标志物作为判断肺部结节良恶性的代谢标志物组合。
CN202311651820.2A 2023-12-05 2023-12-05 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 Active CN117347643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311651820.2A CN117347643B (zh) 2023-12-05 2023-12-05 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311651820.2A CN117347643B (zh) 2023-12-05 2023-12-05 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用

Publications (2)

Publication Number Publication Date
CN117347643A CN117347643A (zh) 2024-01-05
CN117347643B true CN117347643B (zh) 2024-02-06

Family

ID=89357930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311651820.2A Active CN117347643B (zh) 2023-12-05 2023-12-05 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用

Country Status (1)

Country Link
CN (1) CN117347643B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2646779A1 (en) * 2008-11-25 2010-05-25 Gerard Voon Bioscience ix
CN102481270A (zh) * 2009-05-11 2012-05-30 博格生物系统有限责任公司 利用表观代谢转变剂、多维细胞内分子或环境影响剂治疗肿瘤障碍的方法
WO2019079635A1 (en) * 2017-10-18 2019-04-25 Biodesix, Inc. COMPOSITIONS, METHODS AND KITS FOR THE DIAGNOSIS OF LUNG CANCER
CN110646554A (zh) * 2019-09-12 2020-01-03 北京博远精准医疗科技有限公司 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN111999403A (zh) * 2020-08-10 2020-11-27 新乡医学院 一种瓦斯爆炸肺损伤诊断系统、血清标志物筛选方法、肺损伤作用机制研究方法
CN113160883A (zh) * 2021-05-26 2021-07-23 深圳泰莱生物科技有限公司 一种肺癌多组学检测系统
CN113215252A (zh) * 2020-02-05 2021-08-06 南京腾辰生物科技有限公司 用于辅助诊断癌症的甲基化标志物
CN114113569A (zh) * 2021-11-25 2022-03-01 江苏科技大学 一种基于代谢组学技术建立BmNPV抗性品系家蚕筛选标准的方法
CN115112745A (zh) * 2022-07-19 2022-09-27 中国医学科学院北京协和医院 一种用于甲状腺滤泡性肿瘤鉴别诊断标志物及其应用
CN115397452A (zh) * 2020-01-30 2022-11-25 普罗科技有限公司 肺生物标志物及其使用方法
CN115901892A (zh) * 2021-08-24 2023-04-04 中国科学院烟台海岸带研究所 一种检测dna及以dna为识别分子的目标物的检测方法及装置
CN115932277A (zh) * 2022-12-08 2023-04-07 北京大学 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用
CN115984251A (zh) * 2023-02-14 2023-04-18 成都泰莱生物科技有限公司 基于肺部ct与多基因甲基化的肺结节分类方法及产品
CN116381073A (zh) * 2020-10-10 2023-07-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 生物标志物在制备肺癌检测试剂中的用途和方法
CN116413432A (zh) * 2023-04-23 2023-07-11 四川大学华西医院 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN117074696A (zh) * 2023-08-29 2023-11-17 郑州臻合生物科技有限公司 一种非小细胞肺癌标志物及其应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2397672T3 (es) * 2007-12-05 2013-03-08 The Wistar Institute Of Anatomy And Biology Método de diagnóstico de cánceres de pulmón utilizando perfiles de expresión genética en células mononucleares de sangre periférica
US20150017669A1 (en) * 2013-07-10 2015-01-15 Hudson Surface Technology, Inc. Process and its application for improving reproducibility in maldi-tof glycan profiling of human serum: experimental procedure and application to the screening for ovarian tumors

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2646779A1 (en) * 2008-11-25 2010-05-25 Gerard Voon Bioscience ix
CN102481270A (zh) * 2009-05-11 2012-05-30 博格生物系统有限责任公司 利用表观代谢转变剂、多维细胞内分子或环境影响剂治疗肿瘤障碍的方法
WO2019079635A1 (en) * 2017-10-18 2019-04-25 Biodesix, Inc. COMPOSITIONS, METHODS AND KITS FOR THE DIAGNOSIS OF LUNG CANCER
CN110646554A (zh) * 2019-09-12 2020-01-03 北京博远精准医疗科技有限公司 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN115397452A (zh) * 2020-01-30 2022-11-25 普罗科技有限公司 肺生物标志物及其使用方法
CN113215252A (zh) * 2020-02-05 2021-08-06 南京腾辰生物科技有限公司 用于辅助诊断癌症的甲基化标志物
CN111999403A (zh) * 2020-08-10 2020-11-27 新乡医学院 一种瓦斯爆炸肺损伤诊断系统、血清标志物筛选方法、肺损伤作用机制研究方法
CN116381073A (zh) * 2020-10-10 2023-07-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 生物标志物在制备肺癌检测试剂中的用途和方法
CN113160883A (zh) * 2021-05-26 2021-07-23 深圳泰莱生物科技有限公司 一种肺癌多组学检测系统
CN115901892A (zh) * 2021-08-24 2023-04-04 中国科学院烟台海岸带研究所 一种检测dna及以dna为识别分子的目标物的检测方法及装置
CN114113569A (zh) * 2021-11-25 2022-03-01 江苏科技大学 一种基于代谢组学技术建立BmNPV抗性品系家蚕筛选标准的方法
CN115112745A (zh) * 2022-07-19 2022-09-27 中国医学科学院北京协和医院 一种用于甲状腺滤泡性肿瘤鉴别诊断标志物及其应用
CN115932277A (zh) * 2022-12-08 2023-04-07 北京大学 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用
CN115984251A (zh) * 2023-02-14 2023-04-18 成都泰莱生物科技有限公司 基于肺部ct与多基因甲基化的肺结节分类方法及产品
CN116413432A (zh) * 2023-04-23 2023-07-11 四川大学华西医院 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN117074696A (zh) * 2023-08-29 2023-11-17 郑州臻合生物科技有限公司 一种非小细胞肺癌标志物及其应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A nomogram based on metabolic profiling to discriminate lung cancer among patients with lung nodules;Chenwei Li 等;Journal of International Medical Research;第51卷(第3期);1-16 *
Study on the Prediction Method of Long-term Benign and Malignant Pulmonary Lesions Based on LSTM;Liu, XD 等;Front. Bioeng. Biotechnol.;第10卷;1-12 *
TETs蛋白在乌拉坦诱导小鼠肺癌模型中的表达模式;韩靓 等;中国比较医学杂志;第30卷(第01期);1-6 *
肝脏上皮样血管平滑肌脂肪瘤的CT表现;张军;王春;马周鹏;;肝胆胰外科杂志(第02期);123-127 *

Also Published As

Publication number Publication date
CN117347643A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN109884302B (zh) 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
US8478534B2 (en) Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
CN111863250A (zh) 一种早期乳腺癌的联合诊断模型及系统
CN113711044B (zh) 一种用于检测结直肠癌或腺瘤的生物标志物及其方法
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN112651927A (zh) 一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
CN117347643B (zh) 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用
CN113567585A (zh) 一种基于外周血的食管鳞癌筛查标志物及试剂盒
Bury et al. Exploring the problem of determining human age from fingermarks using MALDI MS-machine learning combined approaches
CN113514530A (zh) 一种基于敞开式离子源的甲状腺恶性肿瘤诊断系统
CN114791459B (zh) 用于检测肺结核的血清代谢标志物及其试剂盒
CN113960130A (zh) 一种采用开放式离子源诊断甲状腺癌的机器学习方法
CN115472293A (zh) 一种基于血清代谢指纹的肺腺癌多组学诊断模型及其构建方法
CN117352064B (zh) 一种肺癌代谢标志物组合及其筛选方法和应用
CN116106453A (zh) D-山梨糖醇在食管鳞癌筛查中的应用
CN109190713A (zh) 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN116344027B (zh) 基于外周血循环微核糖核酸及蛋白的肠腺瘤腺癌诊断方法
Meng et al. Feature extraction and analysis of ovarian cancer proteomic mass spectra
CN116287248B (zh) 一种用于肠腺瘤腺癌诊断的miRNA基因及应用
CN115966299A (zh) 一种基于MALDI-ToF MS的数据的疾病诊断模型
CN114428139A (zh) 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒
CN107895159A (zh) 临床蛋白质质谱数据的分类方法
CN118050526A (zh) 一种胆囊恶性肿瘤蛋白诊断生物标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant