CN115951067A - 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型 - Google Patents

一种膀胱癌生物标志物提取方法及膀胱癌诊断模型 Download PDF

Info

Publication number
CN115951067A
CN115951067A CN202211642701.6A CN202211642701A CN115951067A CN 115951067 A CN115951067 A CN 115951067A CN 202211642701 A CN202211642701 A CN 202211642701A CN 115951067 A CN115951067 A CN 115951067A
Authority
CN
China
Prior art keywords
bladder cancer
metabolites
urine
silicon nanowire
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211642701.6A
Other languages
English (en)
Inventor
丁国庆
余燕岚
姜欣荣
邬建敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211642701.6A priority Critical patent/CN115951067A/zh
Publication of CN115951067A publication Critical patent/CN115951067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及一种膀胱癌生物标志物提取方法及膀胱癌诊断模型,本申请通过利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中;对所述硅纳米线芯片的代谢物进行质谱采集,采集尿液代谢物的原始代谢谱,并对原始代谢谱进行预处理;通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物基于尿液高通量代谢检测平台,挖掘尿液样本中膀胱癌相关的潜在生物标志物,实现膀胱癌的有效无创诊断。所建立的膀胱癌诊断模型,前处理简单,不需要复杂的代谢提取过程,检测速度快,可以用于未来大规模人群的肿瘤筛查。

Description

一种膀胱癌生物标志物提取方法及膀胱癌诊断模型
技术领域
本公开涉及医学诊疗技术领域,尤其涉及一种膀胱癌生物标志物提取方法、膀胱癌诊断模型及其在膀胱癌诊断中的应用。
背景技术
膀胱癌是泌尿系统最常见的恶性肿瘤之一,80-90%的患者以肉眼血尿为首发症状。由于这种血尿一般不伴疼痛,而且程度多为洗肉水色,一段时间后可能会自行消失,所以患者容易忽略而延误就医。虽然膀胱镜检查是目前最直观有力的金标准,但其有创性往往成为横亘在患者面前的一道心理难关。尤其对于需要频繁复诊的高龄患者,每次膀胱镜检查都是一次痛苦的折磨。因此,挖掘新的诊断膀胱癌的生物标志物组对于早期治疗和改善预后具有重要意义,通过监控尿液中代谢物的水平,可以实现膀胱癌的无创诊断。
基质辅助激光解吸飞行时间质谱(MALDI-TOF MS)是近年来发展起来的一种新型的软电离生物质谱。由于具有高通量、高灵敏度及选择性等特点,已成为化学分析领域和生命科学领域非常有效的分析工具,尤其在医学领域的应用越来越为广泛和深入。经金属辅助刻蚀制备的硅纳米线具有垂直天线状的阵列结构,对紫外光具有良好吸收和传递效率,被广泛应用生物样本代谢检测。
现有技术中,通过尿液检测膀胱癌的手段主要有两个方面:
一、膀胱癌尿液诊断方面:
1.临床手段:
尿细胞学检测膀胱癌的敏感性为13%-75%,特异性为85%-100%。
2.市场技术:
达健生物研发转化的“人Twist1基因甲基化检测试剂盒”,在全国多中心开展的注册临床研究显示,该产品用于膀胱癌辅助诊断的灵敏度为88.08%、特异性为90.48%,总符合率达89.64%。基准医疗研发的“尿立检”,检测阴性准确率高达99.9%。目前也已有多种膀胱癌抗原(UBC)检测的试剂盒通过批准用于临床,国内代表商品有如瑞清生物UBC elisa试剂盒,梵太生物人膀胱肿瘤抗原(BTA)试剂盒,但有研究显示,尿膀胱肿瘤抗原检测易受血尿浓度的影响,建议联合其他诊断手段以提高膀胱癌筛查的准确度。
3.已有的专利:
(1)公开号CN109709220B公布了一种用于诊断膀胱癌的联合标志物,包括甘磷酸胆碱、胱氨酸、十二碳烯酸、二十碳烯酸和鹅去氧胆酸,通过检测来自受试者的血清样品中上述联合标志物各自的浓度,基于二元逻辑回归方程计算所述联合标志物变量,再基于确定的截点值,判断所述受试者是否患有膀胱癌。
(2)公开号CN106770873B提供了一种膀胱癌诊断标志物,包括肌苷、N-乙酰基-N-2-甲酰基-5-甲氧基犬尿氨酸和磷脂酰丝氨酸(O-18:0/0:0),通过检测人血清样品中联合标志物的浓度,可建立低级别与高级别膀胱癌的诊断指标,对膀胱癌进行准确、快速的诊断。
(3)公开号CN106546721B公布了一组用于诊断区分腺性膀胱炎和膀胱癌的血清生物标志物,其特征在于:包括甲基巴豆酰肉碱、花生四烯酸、溶血磷脂酰胆碱(18:2)和溶血磷脂酰胆碱(20:3),可以用于无创诊断区分腺性膀胱炎和膀胱癌,克服膀胱镜检查的不足,有望代替活检,可以开发成诊断试剂或试剂盒。
二、质谱技术方面(MALDI-TOF MS应用于尿液检测):
(1)公开号CN111413395A提供了一种多孔硅纳米线联合MALDI-TOF MS在代谢小分子检测中的应用。多孔硅纳米线作为MALDI-TOF MS基质的分析方法适用于对分子量小于1000的小分子进行质谱分析,大大简化了小分子样品的检测难度,提高了小分子样品的MALDI-TOF MS的检测灵敏度,同时可以实现对现有基质所产生的质谱峰干扰的排除以及对小分子样品质谱信号的增强处理。
(2)公开号CN113533492A建立基于FEP@SiNWs芯片的顶端-接触萃取技术,避免了液体样本中的盐效应,显著提高激光解吸离子化质谱的检测重现性,尤其适用于含盐量高的液体样本比如尿液、海水中小分子物质的检测。
但是上述膀胱癌尿液诊断技术仍然存在如下技术缺陷:
1:单一生物标志物检测常缺乏足够的诊断敏感性和特异性,临床应用价值受限。
2:由于膀胱癌发病初期缺乏典型的临床表现,当出现肉眼血尿往往已是晚期,常规侵入式检查如白光膀胱镜、窄带成像膀胱镜检查等多用于发现临床症状后的诊断,缺乏预见性,因此亟待开发具有一定诊断价值的膀胱癌生物标志物组。
3:目前,组学的研究方法主要包括核磁共振(NMR)、气相色谱-质谱(GC-MS)以及液相色谱-质谱(LC-MS)。色谱分离需要时间,NMR与MS技术相比灵敏度较低,从而限制了对尿液中代谢物的快速、灵敏以及高通量检测。而尿液作为一种含盐量较高的生物样本,采用GC-MS或者LC-MS则样本的前处理过程较为繁琐,处理时间过长。
发明内容
为了解决上述问题,本申请提出一种膀胱癌生物标志物提取方法、膀胱癌诊断模型及其在膀胱癌诊断中的应用。
本申请一方面,提出一种膀胱癌生物标志物提取方法,包括如下步骤:
收集尿液样本;
利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中;
对所述硅纳米线芯片的代谢物进行质谱采集,采集尿液代谢物的原始代谢谱,并对原始代谢谱进行预处理;
通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物:γ-氨基丁酸,丝氨酸,肌酐,脯氨酸,缬氨酸,半胱氨酸,烟酸,牛磺酸,柠康酸,醛赖氨酸,N-乙酰-L-缬氨酸,N-乙酰-L-苏氨酸,月桂酸。
作为本申请的一可选实施方案,可选地,收集尿液样本,包括:
预设样本采集条件;
根据样本采集条件,分别采集膀胱癌患者与健康志愿者的尿液,作为两组类型的尿液样本;
其中,两组类型的尿液样本,保持性别、年龄、身体质量指数及吸烟状况一致。
作为本申请的一可选实施方案,可选地,利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中,包括:
制备硅纳米线芯片:将单晶硅片经表面洗涤预处理后经过金属辅助刻蚀后得到具有垂直阵列结构的硅纳米线芯片;对硅纳米线芯片进行引发剂材料修饰;
吸附萃取:将制备出的具备引发剂修饰的硅纳米线芯片倒扣在尿液样本表面,硅纳米线芯片的纳米线顶端接触尿液样本,对所述尿液样本的代谢物进行吸附萃取;
预处理:静置20min,萃取完全后,用N2缓速将表面剩余液滴吹干,将表面萃取吸附代谢分子的硅纳米线芯片用碳导电胶贴于靶板上,并置于干燥真空环境中,等待质谱检测。
作为本申请的一可选实施方案,可选地,所述引发剂材料修饰为含氟聚合物分散液修饰。
作为本申请的一可选实施方案,可选地,对所述硅纳米线芯片上的代谢物进行质谱采集,采集得到尿液代谢物的原始代谢谱,包括:
将所述硅纳米线芯片置于光谱采集环境中;
根据所设定的光谱工作参数,进行代谢物的质谱采集,得到尿液代谢物的原始代谢谱;
其中,对于每一张采集的原始谱图,设定S/N>=3的峰数量作为评判图谱质量的标准;保留峰数量大于100的谱图,舍弃峰数量小于100的谱图;采用混合尿液样本的相对标准偏差保证一致性。
作为本申请的一可选实施方案,可选地,对原始代谢谱进行预处理,包括:
预设数据归一化算法;
采用数据归一化算法对原始代谢谱进行归一化处理,得到二级质谱数据。
作为本申请的一可选实施方案,可选地,通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物,包括:
预设人类代谢组数据库和代谢标准品;
从二级质谱数据中提取得到尿液样本中代谢物的准确分子质量和二级碎片峰,用于通过人类代谢组数据库搜索识别代谢物;
将准确分子质量的相对误差控制在30ppm以内,获得初鉴定的代谢物进行验证;
对初鉴定的代谢物进行验证,将代谢物标准品与尿液样本中代谢物的准确分子质量和二级碎片峰进行匹配,得到结构被鉴定的代谢物鉴定结果,并输出保存为特定的膀胱癌生物标志物。
本申请另一方面,还提出一种膀胱癌诊断模型,采用上述所述膀胱癌生物标志物提取方法中的膀胱癌生物标志物进行构建,模型的构建步骤,包括:
准备训练集和验证集;
以归一化后的膀胱癌生物标志物的质谱信号强度作为输入层,基于不同的机器学习算法,以训练集进行交叉验证,建立起若干个分类模型;
导出各个分类模型,并使用验证集对各个分类模型进行验证,根据模型性能评估指标,筛选出最优的分类模型,作为膀胱癌诊断模型。
作为本申请的一可选实施方案,可选地,所述机器学习算法优选线性回归算法LDA。
本申请另一方面,还提出所述膀胱癌诊断模型在膀胱癌诊断中的应用。
本发明的技术效果:
本申请通过利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中;对所述硅纳米线芯片的代谢物进行质谱采集,采集尿液代谢物的原始代谢谱,并对原始代谢谱进行预处理;通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物基于尿液高通量代谢检测平台,挖掘尿液样本中膀胱癌相关的潜在生物标志物,实现膀胱癌的有效无创诊断。所建立的膀胱癌诊断模型,前处理简单,不需要复杂的代谢提取过程,检测速度快,可以用于未来大规模人群的肿瘤筛查。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明膀胱癌生物标志物提取方法的实施流程示意图;
图2示出为本发明膀胱癌患者与健康对照的尿液代谢指纹谱图;
图3示出为本发明质控尿液样本代谢谱的批内和批间稳定性的示意图;
图4示出为本发明不同机器学习算法的性能比较示意图;
图5示出为本发明建模集和验证集在膀胱癌诊断中的混淆矩阵的示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图1所示,本申请一方面,提出一种膀胱癌生物标志物提取方法,包括如下步骤:
收集尿液样本;
利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中;
对所述硅纳米线芯片的代谢物进行质谱采集,采集尿液代谢物的原始代谢谱,并对原始代谢谱进行预处理;
通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物:γ-氨基丁酸,丝氨酸,肌酐,脯氨酸,缬氨酸,半胱氨酸,烟酸,牛磺酸,柠康酸,醛赖氨酸,N-乙酰-L-缬氨酸,N-乙酰-L-苏氨酸,月桂酸。
作为本申请的一可选实施方案,可选地,收集尿液样本,包括:
预设样本采集条件;
根据样本采集条件,分别采集膀胱癌患者与健康志愿者的尿液,作为两组类型的尿液样本;
其中,两组类型的尿液样本,保持性别、年龄、身体质量指数及吸烟状况一致。
本实施例,收集87例尿液样本,其中49例来自膀胱癌患者,38例来自健康志愿者,两组样本的性别、年龄、身体质量指数(BMI)及吸烟状况保持一致。所有的尿液样本为空腹状态下的中段晨尿,尿液样本收集前8小时内避免进食,饮酒,服药等活动。尿液代谢谱由基质辅助激光解吸飞行时间质谱仪(MALDI-TOF MS)采集,代谢数据的分析处理由提供的配套软件Clinprotools等完成;数据的归一化采用统计分析软件R3.5.2的算法包affy进行处理。
作为本申请的一可选实施方案,可选地,利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中,包括:
制备硅纳米线芯片:将单晶硅片经表面洗涤预处理后经过金属辅助刻蚀后得到具有垂直阵列结构的硅纳米线芯片;对硅纳米线芯片进行引发剂材料修饰;
吸附萃取:将制备出的具备引发剂修饰的硅纳米线芯片倒扣在尿液样本表面,硅纳米线芯片的纳米线顶端接触尿液样本,对所述尿液样本的代谢物进行吸附萃取;
预处理:静置20min,萃取完全后,用N2缓速将表面剩余液滴吹干,将表面萃取吸附代谢分子的硅纳米线芯片用碳导电胶贴于靶板上,并置于干燥真空环境中,等待质谱检测。
首先需要对尿液样本进行代谢物提取。
本实施例,采用硅纳米线芯片对尿液代谢物的顶端-接触萃取,硅纳米线芯片的具体技术方案可以参见CN113533492A和CN110954590A。
尿液代谢物的萃取:
步骤一,制备硅纳米线芯片;将单晶硅片经表面洗涤预处理后经过金属辅助刻蚀后得到具有垂直阵列结构的硅纳米线芯片;对硅纳米线芯片进行引发剂材料修饰,所述引发剂材料修饰为含氟聚合物分散液修饰。
步骤二,硅纳米线芯片对尿液代谢物的顶端-接触萃取,
将制备出的具备引发剂修饰的硅纳米线芯片倒扣在尿液样本表面,纳米线顶端接触尿液样本,对代谢物进行吸附萃取,静置20min,萃取完全后,用N2缓速将表面剩余液滴吹干,将表面萃取吸附代谢分子的硅纳米线芯片用碳导电胶贴于靶板上,于干燥真空环境中保存至质谱检测。
作为本申请的一可选实施方案,可选地,所述引发剂材料修饰为含氟聚合物分散液修饰。
作为本申请的一可选实施方案,可选地,对所述硅纳米线芯片上的代谢物进行质谱采集,采集得到尿液代谢物的原始代谢谱,包括:
将所述硅纳米线芯片置于光谱采集环境中;
根据所设定的光谱工作参数,进行代谢物的质谱采集,得到尿液代谢物的原始代谢谱;
其中,对于每一张采集的原始谱图,设定S/N>=3的峰数量作为评判图谱质量的标准;保留峰数量大于100的谱图,舍弃峰数量小于100的谱图;采用混合尿液样本的相对标准偏差保证一致性。
如图2所示,在进行质谱采集时。通过配备355nm Nd:YAG激光束的ultrafleXtremeMALDI-TOF/TOF质谱仪器采集尿液的代谢指纹。
代谢物提取后,将引发剂修饰的硅纳米线芯片粘在铝板上,插入仪器中。在反射负离子模式下进行数据采集,分子量范围设置为20-350Da,质谱采集的相对激光脉冲能量设置为总能量的57%。透镜电压设置为8.50kV,离子源1、离子源2、反射器1和反射器2的电压分别设置为20.00、17.75、21.10和10.70kV。离子提取时间为120ns,激光参数设置为4_large,每个样品的质谱总累加数为2000shots。
需要进行如下质控:
(1)对于每一张采集的原始谱图,设定S/N>=3的峰数量作为评判图谱质量的标准;对于峰数量大于100的谱图才保留,舍弃峰数量小于100的谱图。
(2)针对整个实验操作,采用混合质控尿液样本(所有入组尿液样本等体积混合)的相对标准偏差(相对标准偏差=标准偏差/平均值)保证实验的一致性。参见图3,本实施例的质控尿液代谢指纹谱的批内相对标准偏差为13.8%,批间相对标准偏差为15.7%,说明实验一致性良好。
作为本申请的一可选实施方案,可选地,对原始代谢谱进行预处理,包括:
预设数据归一化算法;
采用数据归一化算法对原始代谢谱进行归一化处理,得到二级质谱数据。
原始代谢谱由FlexAnalysis处理,选择S/N>=3的峰用于后续统计分析。在R3.5.2软件中使用算法包affy下的cubic spline方法进行归一化处理。
具体由实验人员结合FlexAnalysis的功能,按照cubic spline方法进行即可。
质谱数据得到后,需要对代谢物的结构进行鉴定,以得到特定用于膀胱癌诊断的膀胱癌生物标志物。
使用MATLAB软件通过t检验筛选出差异代谢物,并通过R 3.5.2软件中p.adjust函数进行p值校正。定义基于Benjamini-Hochberg方法校正后p<0.05的代谢物为潜在的膀胱癌生物标志物。具体的:
作为本申请的一可选实施方案,可选地,通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物,包括:
预设人类代谢组数据库和代谢标准品;
从二级质谱数据中提取得到尿液样本中代谢物的准确分子质量和二级碎片峰,用于通过人类代谢组数据库搜索识别代谢物;
将准确分子质量的相对误差控制在30ppm以内,获得初鉴定的代谢物进行验证;
对初鉴定的代谢物进行验证,将代谢物标准品与尿液样本中代谢物的准确分子质量和二级碎片峰进行匹配,得到结构被鉴定的代谢物鉴定结果,并输出保存为特定的膀胱癌生物标志物。
特征代谢物的鉴定:通过将二级质谱数据与人类代谢组数据库(http://www.hmdb.ca/)和代谢标准品进行匹配来进行差异代谢物的结构鉴定。首先,UPLC-MS/MS分析提供尿液样本中代谢物的准确分子质量和二级碎片峰,用于通过数据库搜索识别代谢物。将准确分子质量的相对误差控制在30ppm以内,获得初鉴定的差异代谢物列表。随后,通过MALDI-TOF/TOF串联质谱仪对初鉴定的代谢物进行验证,将代谢物标准品与尿液样本中代谢物进行匹配,匹配包括代谢物准确分子质量与二级质谱碎片峰。
经过鉴定,得到如下表1中所示的13种代谢物在内的生物标志物鉴定结果:
质荷比(m/z) 离子加和方式 代谢物
102.0549 M-H γ-氨基丁酸
104.0303 M-H 丝氨酸
112.0482 M-H 肌酐
114.0563 M-H 脯氨酸
116.0698 M-H 缬氨酸
120.0119 M-H 半胱氨酸
122.0266 M-H 烟酸
123.9969 M-H 牛磺酸
129.0071 M-H 柠康酸
144.0621 M-H 醛赖氨酸
158.0702 M-H N-乙酰-L-缬氨酸
160.0615 M-H N-乙酰-L-苏氨酸
199.1714 M-H 月桂酸
表1---13种代谢物在内的生物标志物
因此,本发明选取多个代谢物作为生物标志物组,对于膀胱癌诊断具有更高的敏感性及特异性,作为更符合临床需求。
需要说明的是,尽管以各个处理软件作为示例介绍了如上代谢物提取过程,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据实际应用场景灵活设定各个步骤中的处理软件,只要可以按照上述技术方法实现本申请的技术功能即可。
实施例2
本实施例,在得到13种膀胱癌生物标志物后,将鉴定出的p<0.05的代谢物作为膀胱癌的潜在生物标志物;在实际建模时,将所有膀胱癌生物标志物作为输入层,临床分组作为输出层,进行建模,利用所得到的膀胱癌诊断模型,可以快速实现膀胱癌检测以及应对大量人群的检测。
基于实施例1的实施原理,本申请另一方面,还提出一种膀胱癌诊断模型,采用上述所述膀胱癌生物标志物提取方法中的膀胱癌生物标志物进行构建,模型的构建步骤,包括:
准备训练集和验证集;
以归一化后的膀胱癌生物标志物的质谱信号强度作为输入层,基于不同的机器学习算法,以训练集进行交叉验证,建立起若干个分类模型;
导出各个分类模型,并使用验证集对各个分类模型进行验证,根据模型性能评估指标,筛选出最优的分类模型,作为膀胱癌诊断模型。
作为本申请的一可选实施方案,可选地,所述机器学习算法优选线性回归算法LDA。
本发明以准确度,F度量值,Kappa系数以及精确度作为评估模型性能的指标,筛选最优机器学习算法,构建了基于代谢组学生物标志物组的膀胱癌诊断模型。包括如下实施步骤:
1、训练集和验证集准备:随机抽取87例尿液样本中的34例膀胱癌,26例健康对照样本作为训练集,用于模型的建立;另选剩余样本中27例作为验证集,用于盲选测试,其中已知15例来自膀胱癌患者,12例来自健康人群。
2、模型构建:以归一化后的膀胱癌生物标志物质谱信号强度作为输入层,在MATLAB软件的Classification learner模块中建立了不同的机器学习模型,为了降低由于训练集和验证集单次划分而导致的偶然性,在建模过程中对训练集进行交叉验证(10倍)。本研究研究了7种分类模型,包括LASSO回归、支持向量机(SVM)、决策树(DT)、K最近邻(KNN)、朴素贝叶斯分类器(NB)、线性判别分析(LDA)和逻辑回归(Logi)。
3、模型导出与验证集预测:将构建的模型导出到MATLAB工作区,采用predictFcn(T)函数进行验证集样本的预测。
4、线性回归模型(筛选的最优模型)的具体预测函数:
Probability=0.504+1.156×10-4Inten(γ-氨基丁酸)-1.091×10-4Inten(丝氨酸)-1.367×10-5Inten(肌酐)+3.593×10-4Inten(脯氨酸)+3.138×10-5Inten(半胱氨酸)–1.143×10-5Inten(烟酸)–1.920×10-5Inten(牛磺酸)-2.718×10-4Inten(柠康酸)+2.008×10-4Inten(N-乙酰-L-缬氨酸)–4.600×10-4Inten(N-乙酰-L-苏氨酸)–1.153×10-4Inten(月桂酸)–4.274×10-5Inten(醛赖氨酸)+4.684×10-4Inten(缬氨酸)。
其中,机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。常见的机器学习算法主要包括线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯、最近邻等。在本实施例中,训练机器学习模型时引入了10倍交叉验证的过程,避免“过学习”现象,采用准确度、F度量值、kappa系数和精确度来评估不同分类方法的模型性能。
以准确度(Accuracy),F度量值(F-measure),Kappa系数以及精确度(Precision)作为评估模型性能的指标,比较了不同机器学习算法构建的双组学模型在建模集以及验证集中进行二分类的诊断效果。评估比较的机器学习算法包括支持向量机(SVM),决策树(DT),朴素贝叶斯分类(NB),逻辑回归(logi),线性回归(LDA),最近邻分类(KNN)以及LASSO回归。二分类包括膀胱癌与健康对照的判别。从图4中可以看出,基于线性回归(LDA)构建的模型在建模集和验证集的二分类判别中表现出最优异的性能。
基于筛选出来的线性回归算法(LDA),建立了尿液预测模型以实现膀胱癌诊断。在诊断中,由13种代谢物在内的生物标志物组进行尿液筛查,对膀胱癌患者和健康对照进行区分。生物标志物组具体包括γ-氨基丁酸,丝氨酸,肌酐,脯氨酸,缬氨酸,半胱氨酸,烟酸,牛磺酸,柠康酸,醛赖氨酸,N-乙酰-L-缬氨酸,N-乙酰-L-苏氨酸,月桂酸。
如图5所示,是建模集和验证集在膀胱癌诊断中的混淆矩阵,对于训练样本的结果为:34例膀胱癌患者中34例判断正确,敏感性为100%,26例健康志愿者中有25例判断正确,特异性96.15%;对于验证样本的结果为:15例膀胱癌患者中有15例判断正确,敏感性为100%;12例健康志愿者中有12例判断正确,特异性为100%。
本发明中构建的代谢组学诊断模型能够成功挑选出验证集中100%的膀胱癌患者,在未来泌尿肿瘤筛查方面具有一定的应用价值。本发明采用的基于MALDI-TOF MS平台的尿液代谢检测技术,样本前处理过程相对简单,检测速度快,有望实现大规模人群的疾病筛查。
显然,本领域的技术人员应该明白,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例3
更进一步地,本申请另一方面,还提出所述膀胱癌诊断模型在膀胱癌诊断中的应用。
模型的应用原理,请参见实施例2的描述。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种膀胱癌生物标志物提取方法,其特征在于,包括如下步骤:
收集尿液样本;
利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中;
对所述硅纳米线芯片的代谢物进行质谱采集,采集尿液代谢物的原始代谢谱,并对原始代谢谱进行预处理;
通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物:γ-氨基丁酸,丝氨酸,肌酐,脯氨酸,缬氨酸,半胱氨酸,烟酸,牛磺酸,柠康酸,醛赖氨酸,N-乙酰-L-缬氨酸,N-乙酰-L-苏氨酸,月桂酸。
2.根据权利要求1所述的一种膀胱癌生物标志物提取方法,其特征在于,收集尿液样本,包括:
预设样本采集条件;
根据样本采集条件,分别采集膀胱癌患者与健康志愿者的尿液,作为两组类型的尿液样本;
其中,两组类型的尿液样本,保持性别、年龄、身体质量指数及吸烟状况一致。
3.根据权利要求1所述的一种膀胱癌生物标志物提取方法,其特征在于,利用硅纳米线芯片接触上述尿液样本,对尿液代谢物进行吸附萃取,萃取吸附后,置于干燥真空环境中,包括:
制备硅纳米线芯片:将单晶硅片经表面洗涤预处理后经过金属辅助刻蚀后得到具有垂直阵列结构的硅纳米线芯片;对硅纳米线芯片进行引发剂材料修饰;
吸附萃取:将制备出的具备引发剂修饰的硅纳米线芯片倒扣在尿液样本表面,硅纳米线芯片的纳米线顶端接触尿液样本,对所述尿液样本的代谢物进行吸附萃取;
预处理:静置20min,萃取完全后,用N2缓速将表面剩余液滴吹干,将表面萃取吸附代谢分子的硅纳米线芯片用碳导电胶贴于靶板上,并置于干燥真空环境中,等待质谱检测。
4.根据权利要求3所述的一种膀胱癌生物标志物提取方法,其特征在于,所述引发剂材料修饰为含氟聚合物分散液修饰。
5.根据权利要求3所述的一种膀胱癌生物标志物提取方法,其特征在于,对所述硅纳米线芯片上的代谢物进行质谱采集,采集得到尿液代谢物的原始代谢谱,包括:
将所述硅纳米线芯片置于光谱采集环境中;
根据所设定的光谱工作参数,进行代谢物的质谱采集,得到尿液代谢物的原始代谢谱;
其中,对于每一张采集的原始谱图,设定S/N>=3的峰数量作为评判图谱质量的标准;保留峰数量大于100的谱图,舍弃峰数量小于100的谱图;采用混合尿液样本的相对标准偏差保证一致性。
6.根据权利要求5所述的一种膀胱癌生物标志物提取方法,其特征在于,对原始代谢谱进行预处理,包括:
预设数据归一化算法;
采用数据归一化算法对原始代谢谱进行归一化处理,得到二级质谱数据。
7.根据权利要求6所述的一种膀胱癌生物标志物提取方法,其特征在于,通过预设的筛选方法,从原始代谢谱中筛选得到特征代谢物,并进行结构鉴定,得到特定的膀胱癌生物标志物,包括:
预设人类代谢组数据库和代谢标准品;
从二级质谱数据中提取得到尿液样本中代谢物的准确分子质量和二级碎片峰,用于通过人类代谢组数据库搜索识别代谢物;
将准确分子质量的相对误差控制在30ppm以内,获得初鉴定的代谢物进行验证;
对初鉴定的代谢物进行验证,将代谢物标准品与尿液样本中代谢物的准确分子质量和二级碎片峰进行匹配,得到结构被鉴定的代谢物鉴定结果,并输出保存为特定的膀胱癌生物标志物。
8.一种膀胱癌诊断模型,采用权利要求1-7中任一项所述膀胱癌生物标志物提取方法中的膀胱癌生物标志物进行构建,其特征在于,模型的构建步骤,包括:
准备训练集和验证集;
以归一化后的膀胱癌生物标志物的质谱信号强度作为输入层,基于不同的机器学习算法,以训练集进行交叉验证,建立起若干个分类模型;
导出各个分类模型,并使用验证集对各个分类模型进行验证,根据模型性能评估指标,筛选出最优的分类模型,作为膀胱癌诊断模型。
9.根据权利要求8所述的一种膀胱癌诊断模型,其特征在于,所述机器学习算法优选线性回归算法LDA。
10.权利要求8-9中任一项所述的一种膀胱癌诊断模型在膀胱癌诊断中的应用。
CN202211642701.6A 2022-12-20 2022-12-20 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型 Pending CN115951067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642701.6A CN115951067A (zh) 2022-12-20 2022-12-20 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642701.6A CN115951067A (zh) 2022-12-20 2022-12-20 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型

Publications (1)

Publication Number Publication Date
CN115951067A true CN115951067A (zh) 2023-04-11

Family

ID=87287025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642701.6A Pending CN115951067A (zh) 2022-12-20 2022-12-20 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型

Country Status (1)

Country Link
CN (1) CN115951067A (zh)

Similar Documents

Publication Publication Date Title
CN109884302B (zh) 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
JP4963721B2 (ja) 疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム
US20040153249A1 (en) System, software and methods for biomarker identification
CN110646554A (zh) 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用
US20050101023A1 (en) Methods for diagnosing urinary tract and prostatic disorders
US20170059581A1 (en) Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles
US10910205B2 (en) Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
WO2023179263A1 (zh) 评估甲状腺结节恶性程度或概率的系统、模型及试剂盒
CN111370061A (zh) 基于蛋白标记物与人工智能的癌症筛查方法
CN112183616A (zh) 一种脑胶质瘤诊断的诊断标志物、试剂盒及筛选方法和脑胶质瘤诊断模型的构建方法
CN112599239B (zh) 代谢物标志物及其在脑梗死诊断中的应用
CN112305122B (zh) 代谢物标志物及其在疾病中的应用
CN114758719B (zh) 一种结直肠癌预测系统及其应用
CN114791459B (zh) 用于检测肺结核的血清代谢标志物及其试剂盒
CN115951067A (zh) 一种膀胱癌生物标志物提取方法及膀胱癌诊断模型
CN115684451A (zh) 基于代谢组学的食管鳞癌淋巴结转移诊断标志物及其应用
WO2020250995A1 (ja) 罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム
Pyatnitskiy et al. Identification of differential signs of squamous cell lung carcinoma by means of the mass spectrometry profiling of blood plasma
CN116183795A (zh) 一种尿液代谢组学在前列腺癌诊断中的应用方法
CN112255333B (zh) 卵巢肿瘤尿液代谢标志物及其应用
CN117388495B (zh) 用于诊断肺癌分期的代谢标志物的应用及试剂盒
EP2730922B1 (en) Method and system for detecting lymphosarcoma in cats using biomarkers
US20230402131A1 (en) Biomarker and diagnosis system for colorectal cancer detection
CN114428139A (zh) 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒
CN112599238A (zh) 与脑梗死相关的代谢标志物及其在诊疗中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination