CN116106535B - 生物标志物组合在制备乳腺癌预测产品中的应用 - Google Patents
生物标志物组合在制备乳腺癌预测产品中的应用 Download PDFInfo
- Publication number
- CN116106535B CN116106535B CN202310376613.4A CN202310376613A CN116106535B CN 116106535 B CN116106535 B CN 116106535B CN 202310376613 A CN202310376613 A CN 202310376613A CN 116106535 B CN116106535 B CN 116106535B
- Authority
- CN
- China
- Prior art keywords
- model
- hydroxy
- carboxypterin
- breast cancer
- guanosine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/36—Gynecology or obstetrics
- G01N2800/365—Breast disorders, e.g. mastalgia, mastitits, Paget's disease
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/52—Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/70—Mechanisms involved in disease identification
- G01N2800/7023—(Hyper)proliferation
- G01N2800/7028—Cancer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Urology & Nephrology (AREA)
- Analytical Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Hematology (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Cell Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Microbiology (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了生物标志物组合在制备乳腺癌预测产品中的应用。所述生物标志物组合包括:蝶呤、单蝶呤、6‑羧基蝶呤、2,4‑二氧四氢喋啶、7‑羟基‑2,4‑二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N‑(4‑氨基苯甲酰)‑L‑谷氨酸、次黄嘌呤核苷、腺苷、8‑羟基‑2‑脱氧鸟苷、5‑甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷。采用所述生物标志物的组合能够预测受试者罹患乳腺相关疾病的情况。本发明还提供了一种乳腺癌分类预测模型,所述分类预测模型在临床检测中具有较高的敏感性和特异性,在乳腺癌早筛查早诊断,做好疾病管理,进而改善患者预后,提高患者生存率中具有重要的应用价值。
Description
技术领域
本发明属于生物检测技术领域,具体涉及一种生物标志物组合在制备乳腺癌预测产品中的应用。
背景技术
癌症是全球死亡的主要原因之一,尽管疾病预防、筛查、诊断和治疗在进步,但是人口增长和既定风险因素(包括吸烟,肥胖和久坐不动的生活方式)使得患病率增加,导致癌症发病率上升。“早筛早诊早治”是公认的提高癌症治愈率的途径。降低癌症负担的关键挑战在于开发出用于早期检测和诊断的可靠的筛查方法。
目前有几种筛查癌症的方法,例如组织活检、医学成像、乳腺X线检查等。然而,由于筛查效能和实施的局限性,这些筛查方法对降低癌症死亡率有相对较小的影响。此外,当筛查方法不能区分恶性疾病时,会发生过度检测,从而使患者遭受不必要的治疗程序和可能降低患者生活质量的重大风险。
在全球范围内,乳腺癌既是最常见的癌症,也是导致妇女癌症死亡的最常见原因。生存率取决于癌症分期和分子亚型,早期癌症检测是改善预后的重要策略。国内外的主流专业组织都建议进行乳腺X线检查和/或乳腺超声检查,并对筛查异常的群体进行随访。筛查可降低15%-40%的死亡率,但也存在过度诊断、过度治疗以及假阴性(6%-46%)等问题。因此,开发一种高灵敏度、快速的早期乳腺癌检测方法迫在眉睫。
近年来,利用生物标志物进行早期癌症检测受到了广泛的关注。目前,这项工作的大部分集中在对血液的分析检测上。但是通过使用血清或血浆进行的血液分析具有一些固有的局限性,阻碍了临床生物标志物检测的发展。这些局限性中最重要的是血液中蛋白质库的相对高水平和复杂性质。血液基质的成分,包括凝血及其他血清学因子、载体蛋白、免疫调节蛋白及活性酶等在内的物质都可能对生物标志物检测造成干扰。血液检测的侵入性也限制了重复测量的可行性,并增加了患者和医疗专业人员的感染风险。利用生物标志物进行早期癌症检测,还包括对尿液的分析检测,尿液代谢组学由于其无创采样的特性和良好的结果重现性,成为一种潜在的癌症生物标志物检测方法。
尿液修饰核苷是另一类公认的癌症生物标志物,其由游离核苷和DNA和RNA结合核苷的化学修饰和损伤引起。因此,尿液修饰核苷已被普遍作为癌症标志物,包括上皮细胞癌。Hsu等(Hsu, W.Y., et al., Analysis of urinary nucleosides as potentialtumor markers in human breast cancer by high performance liquidchromatography/electrospray ionization tandem mass spectrometry. Clin ChimActa, 2011. 412(19-20): p. 1861-6.)测量了36例女性乳腺癌患者尿核苷水平,发现在乳腺癌患者尿液中3种核苷、胞苷、3-甲基胞苷和肌苷水平显著升高。
受益于质谱技术的发展进步,尿液中广泛的代谢图谱揭示了大量代谢路径改变,因此,筛选出潜在的生物标志物,开发一种基于代谢物的多生物标志物组合的检测乳腺癌的方法具有重要的应用价值。
发明内容
针对现有技术存在的不足,本发明的目的在于提供生物标志物组合在制备乳腺癌预测产品中的应用,所述生物标志物为蝶啶类和修饰核苷类代谢物,本发明还提供了所述生物标志物组合在乳腺癌的检测和治疗中的应用方法,所述应用方法能提高临床检测的敏感性和特异性,从而做到乳腺癌早筛查早诊断,做好疾病管理,进而改善患者预后,提高患者生存率。
为达到此发明目的,本发明采用以下技术方案:
第一方面,本发明提供生物标志物组合在制备乳腺癌预测产品中的应用,所述乳腺癌预测产品用于预测受试者的如下三种结果:
(1)预测受试者为乳腺癌或正常;
(2)预测受试者为乳腺良性肿瘤或正常;
(3)预测受试者为乳腺良性肿瘤或乳腺癌;
所述生物标志物来源于受试者尿液;
所述生物标志物组合包括:蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中任意一种或至少两种的组合。
优选地,所述生物标志物组合包括:蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少5种的组合。
优选地,预测受试者为乳腺癌或正常的生物标志物组合包括:
蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少9种的组合。
优选地,预测受试者为乳腺良性肿瘤或正常的生物标志物组合包括:
蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少9种的组合。
优选地,预测受试者为乳腺良性肿瘤或乳腺癌的生物标志物组合包括:
蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少5种的组合。
优选地,预测受试者为乳腺癌或正常的生物标志物组合包括:
6-羧基蝶呤、生物蝶呤、腺苷、假尿(嘧啶核)苷、7-羟基-2,4-二氧四氢喋啶、新蝶呤、墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、腺苷、假尿(嘧啶核)苷、7-羟基-2,4-二氧四氢喋啶、单蝶呤、墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、单蝶呤、墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、新蝶呤、墨蝶呤;
或,6-羧基蝶呤、腺苷、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、黄(嘌呤核)苷、单蝶呤、蝶呤。
优选地,预测受试者为乳腺良性肿瘤或正常的生物标志物组合包括:
2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、腺苷;
或,2,4-二氧四氢喋啶、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、单蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷。
优选地,预测受试者为乳腺良性肿瘤或乳腺癌的生物标志物组合包括:
8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、新蝶呤、7-羟基-2,4-二氧四氢喋啶;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、新蝶呤;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、单蝶呤;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、单蝶呤、7-羟基-2,4-二氧四氢喋啶;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、5-甲基尿甙、鸟嘌呤核苷、单蝶呤。
第二方面,本发明提供一种乳腺癌分类预测模型,所述乳腺癌分类预测模型包括:
(1)数据获取模块:用于获取对照组、乳腺良性肿瘤组和乳腺癌组的尿液样本样品中生物标志物组合的质谱数据;
(2)数据分析模块:用于对3个对比组做统计显著性分析,对比组包括对照组和乳腺良性肿瘤组、对照组和乳腺癌组、乳腺良性肿瘤组和乳腺癌组;
(3)分类预测模型构建模块:用于构建对照组和乳腺癌组的分类预测模型、对照组和乳腺良性肿瘤组的分类预测模型、乳腺良性肿瘤组和乳腺癌组的分类预测模型;分别将3个对比组中的质谱数据为训练集和测试集,使用逻辑回归分别对3个对比组做分类预测模型;
(4)分类预测结果输出模块:用于将受试者尿液样本中的分子标志物的数值代入分类预测模型的模型公式,基于模型公式的输出值计算受试者的分类概率值和输出分类结果。
优选地,分类预测模型构建模块中,采用10 repeat * 5 fold交叉验证方法计算模型性能;在python3.9编程环境下,调用scikit-learn软件包执行逻辑回归建模;使用的逻辑回归加入的惩罚参数类型为弹性网络,其他参数使用网格搜索法确定最佳参数组合。
优选地,分类预测结果输出模块中,概率值计算公式如下所示:
;
式中,y表示模型的预测值,所述预测值为根据模型公式计算得到的Y值,e表示自然对数值,P表示受试者的分类概率值。
优选地,分类预测模型构建模块中,对照组和乳腺癌组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-1.451+(-1.466*6-羧基蝶呤)+(-1.604*生物蝶呤)+(0.702*腺苷)+(-0.722*假尿(嘧啶核)苷)+(0.858*7-羟基-2,4-二氧四氢喋啶)+(0.502*新蝶呤)+(0.960*墨蝶呤);
模型2:Y=-1.461+(-1.427*6-羧基蝶呤)+(-1.699*生物蝶呤)+(0.774*腺苷)+(-0.676*假尿(嘧啶核)苷)+(0.859*7-羟基-2,4-二氧四氢喋啶)+(0.413*单蝶呤)+(1.004*墨蝶呤);
模型3:Y=-1.377+(-1.861*6-羧基蝶呤)+(-0.939*生物蝶呤)+(-0.506*2,4-二氧四氢喋啶)+(-0.316*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.136*7-羟基-2,4-二氧四氢喋啶)+(0.549*单蝶呤)+(0.869*墨蝶呤);
模型4:Y=-1.371+(-1.860*6-羧基蝶呤)+(-0.952*生物蝶呤)+(-0.484*2,4-二氧四氢喋啶)+(-0.277*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.085*7-羟基-2,4-二氧四氢喋啶)+(0.573*新蝶呤)+(0.845*墨蝶呤);
模型5:Y=-1.327+(-1.892*6-羧基蝶呤)+(0.561*腺苷)+(-1.043*2,4-二氧四氢喋啶)+(1.226*7-羟基-2,4-二氧四氢喋啶)+(-0.420*黄(嘌呤核)苷)+(0.493*单蝶呤)+(0.451*蝶呤)。
优选地,分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为正常。
优选地,分类预测模型构建模块中,对照组和乳腺良性肿瘤组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-0.591+(-0.812*2,4-二氧四氢喋啶)+(1.193*墨蝶呤)+(-0.860*胞嘧啶核苷)+(-1.178*生物蝶呤)+(2.187*鸟嘌呤核苷)+(0.693*5-甲基尿甙)+(0.577*蝶呤)+(-0.489*8-羟基-2-脱氧鸟苷)+(0.332*假尿(嘧啶核)苷);
模型2:Y=-0.566+(-1.121*2,4-二氧四氢喋啶)+(0.316*墨蝶呤)+(-0.813*胞嘧啶核苷)+(-0.595*6-羧基蝶呤)+(2.106*鸟嘌呤核苷)+(0.672*5-甲基尿甙)+(0.906*蝶呤)+(-0.445*8-羟基-2-脱氧鸟苷)+(0.574*假尿(嘧啶核)苷);
模型3:Y=-0.569+(-0.576*2,4-二氧四氢喋啶)+(0.956*墨蝶呤)+(-0.715*胞嘧啶核苷)+(-0.842*生物蝶呤)+(-0.261*6-羧基蝶呤)+(1.696*鸟嘌呤核苷)+(0.655*5-甲基尿甙)+(0.577*蝶呤)+(-0.264*8-羟基-2-脱氧鸟苷);
模型4:Y=-0.605+(-0.703*2,4-二氧四氢喋啶)+(1.242*墨蝶呤)+(-0.914*胞嘧啶核苷)+(-1.173*生物蝶呤)+(1.988*鸟嘌呤核苷)+(0.688*5-甲基尿甙)+(0.535*蝶呤)+(-0.410*8-羟基-2-脱氧鸟苷)+(0.253*腺苷);
模型5:Y=-0.592+(-0.990*2,4-二氧四氢喋啶)+(-0.890*胞嘧啶核苷)+(-0.784*6-羧基蝶呤)+(2.081*鸟嘌呤核苷)+(0.743*5-甲基尿甙)+(0.955*蝶呤)+(0.533*单蝶呤)+(-0.503*8-羟基-2-脱氧鸟苷)+(0.404*假尿(嘧啶核)苷)。
优选地,分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺良性肿瘤,否则为正常。
优选地,分类预测模型构建模块中,乳腺良性肿瘤组和乳腺癌组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-0.515+(0.728*8-羟基-2-脱氧鸟苷)+(-0.857*6-羧基蝶呤)+(-0.798*黄(嘌呤核)苷)+(-0.808*鸟嘌呤核苷)+(0.448*新蝶呤)+(0.343*7-羟基-2,4-二氧四氢喋啶);
模型2:Y=-0.529+(0.747*8-羟基-2-脱氧鸟苷)+(-0.750*6-羧基蝶呤)+(-0.712*黄(嘌呤核)苷)+(-0.763*鸟嘌呤核苷)+(0.435*新蝶呤);
模型3:Y=-0.518+(0.744*8-羟基-2-脱氧鸟苷)+(-0.692*6-羧基蝶呤)+(-0.653*黄(嘌呤核)苷)+(-0.789*鸟嘌呤核苷)+(0.341*单蝶呤);
模型4:Y=-0.502+(0.711*8-羟基-2-脱氧鸟苷)+(-0.780*6-羧基蝶呤)+(-0.717*黄(嘌呤核)苷)+(-0.803*鸟嘌呤核苷)+(0.334*单蝶呤)+(0.319*7-羟基-2,4-二氧四氢喋啶);
模型5:Y=-0.519+(0.776*8-羟基-2-脱氧鸟苷)+(-0.664*6-羧基蝶呤)+(-0.573*黄(嘌呤核)苷)+(-0.244*5-甲基尿甙)+(-0.748*鸟嘌呤核苷)+(0.297*单蝶呤)。
优选地,分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为乳腺良性肿瘤。
相对于现有技术,本发明具有以下有益效果:
(1)基于质谱技术可以快速高效检测出分子浓度值,灵敏度和特异度高。
(2)基于17个分子的标志物模型可以预测受试者的乳腺癌疾病类型,包括健康对照,乳腺癌良性肿瘤和乳腺癌。这些模型可以作为现有临床检测乳腺的辅助诊断,提高临床检测的敏感性和特异性,从而做到乳腺癌早筛查早诊断,做好疾病管理,进而改善患者预后,提高患者生存率。
附图说明
图1是17个分子标志物在乳腺癌组和对照组分布的箱线图展示。
图2是17个分子标志物在乳腺癌组和对照组分布的PCA主成分分析展示。
图3是对照组和乳腺癌的模型1 [6-羧基蝶呤,生物蝶呤,腺苷,假尿(嘧啶核)苷,7-羟基-2,4-二氧四氢喋啶,新蝶呤,墨蝶呤] 预测的ROC曲线结果示例;图中Mean AUCROC表示ROC曲线面积的平均值,std dev表示标准偏差。
图4是对照组和乳腺良性肿瘤模型1 [2,4-二氧四氢喋啶,墨蝶呤,胞嘧啶核苷,生物蝶呤,鸟嘌呤核苷,5-甲基尿甙,蝶呤,8-羟基-2-脱氧鸟苷,假尿(嘧啶核)苷] 的ROC曲线示意图;图中Mean AUCROC表示ROC曲线面积的平均值,std dev表示标准偏差。
图5是乳腺良性肿瘤和乳腺癌组模型1 [8-羟基-2-脱氧鸟苷,6-羧基蝶呤,黄(嘌呤核)苷,鸟嘌呤核苷,新蝶呤,7-羟基-2,4-二氧四氢喋啶] 的ROC曲线示意图;图中MeanAUCROC表示ROC曲线面积的平均值,std dev表示标准偏差。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
(1)样本的收集:
收集330例年龄匹配且刚确诊为乳腺癌的绝经后女性和健康对照组(N=165)。取中段晨尿,样本储存于-20℃冰箱内,三天内送至南京品生医疗实验室,实验前放入-80℃冰箱保存待测。
(2)质谱前样本的处理:
尿液样本经0.22 μm滤膜过滤后,取待测标本20 μL于标记好的1.5 mL EP管中,加入180 μL 50%甲醇-0.01%甲酸水,涡旋混匀后转移上清液80 μL待进样。
(3)质谱检测流程方法:
色谱条件:
A. 色谱柱:BEH C18(2.1×50 mm,1.7 µm);
B. 流动相:流动相A:纯水(含有0.1%甲酸);流动相B:甲醇;
C. 色谱梯度如表1所示:
表1
D. 离子源参数如表2所示:
表2
E. 质谱参数如表3所示:
表3
F. 仪器参数:Qlife Lab 9000plus三重四极杆质谱仪(品生医学);Qlife Lab9000高效液相色谱系统(配G7167A自动进样器,品生医学);系统工作软件为MSquantitative analysis 10.0(MS定量分析10.0)。
(4)质谱的数据处理(数据质控、PCA、OPLS-DA、ROC分析等)
健康对照样本145个,乳腺良性肿瘤样本87个,乳腺癌样本59个。
1. 对照样本有145个女性尿液样本,健康人(对照样本)临床信息统计结果见表4。对照组年龄中位数为62,25%分位数为55,75%分位数为65。
表4
表4的表注说明:62(55-65)格式表示四分位数中的中位数(25%分位数-75%分位数),“-”表示否,missing:145表示在某个特征有145个样本数据缺失。
2. 87个乳腺良性肿瘤样本,乳腺良性肿瘤临床信息统计表见表5。年龄中位数为44,25%分位数为32,75%分位数为48。
表5
表5的表注说明:44(32-48)格式表示四分位数中的中位数(25%分位数-75%分位数),“-”表示否,missing:1表示在某个特征有1个样本数据缺失。
3. 59个乳腺癌患者尿液样本,年龄中位数为49,25%分位数为44,75%分位数为60。乳腺癌样本临床信息和分子标志物统计结果见表6。
表6
表6的表注说明:49(44-60)格式表示四分位数中的中位数(25%分位数-75%分位数),“-”表示否,missing:1表示在某个特征有1个样本数据缺失。
4. 分别计算每个分子在对照组的中位数,乳腺良性肿瘤的中位数,乳腺癌的中位数,17个分子标志物在3组(对照组、乳腺良性肿瘤,乳腺癌组)的中位数(25%分位数-75%分位数)统计见表7。
表7
表中分子标志物中英文对照:
蝶呤:Pterin;单蝶呤:Monapterin;6-羧基蝶呤:6-Carboxypterin;2,4-二氧四氢喋啶:Lumazine;7-羟基-2,4-二氧四氢喋啶:7-Hydroxylumazine;新蝶呤:Neopterin;生物蝶呤:Biopterin;墨蝶呤:Sepiapterin;N-(4-氨基苯甲酰)-L-谷氨酸:N-(4-aminobenzoyl) L-glutamic acid;次黄嘌呤核苷:Inosine;腺苷:Adenosine free base;8-羟基-2-脱氧鸟苷:8-Oxo-2-deoxyguanosine;5-甲基尿甙:5-Methyluridine;黄(嘌呤核)苷:Xanthosine;胞嘧啶核苷:Cytidine;鸟嘌呤核苷:Guanosine;假尿(嘧啶核)苷:β-Pseudouridine;
对3个对比组中17个分子的检测浓度值做统计显著性分析,分别是对照组和乳腺良性肿瘤,对照组和乳腺癌,乳腺良性肿瘤和乳腺癌进行分析。17个分子在3个对比组的显著统计检验方法使用非参数统计方法曼-惠特尼U检验(Mann-Whitney U test),P值小于0.05说明分子具有统计显著性。
对照组和乳腺良性肿瘤:蝶呤、7-羟基-2,4-二氧四氢喋啶、次黄嘌呤核苷、腺苷、5-甲基尿甙、黄(嘌呤核)苷和鸟嘌呤核苷统计显著。
对照组和乳腺癌:6-羧基蝶呤、生物蝶呤和胞嘧啶核苷统计显著。
乳腺良性肿瘤和乳腺癌:6-羧基蝶呤、次黄嘌呤核苷、5-甲基尿甙、黄(嘌呤核)苷、鸟嘌呤核苷和假尿(嘧啶核)苷统计显著。
表8为17个分子标志物在3个对比组的显著性结果。
表8
图1为17个分子标志物在乳腺癌组和对照组分布的箱线图展示,这里使用Z-score方法标准化数据。图2为17个分子标志物在乳腺癌组和对照组分布的PCA主成分分析展示,第一主成分可解释度37.4%,第二主成分为可解释度11.4%,2个主成分可结解释度总计为48.8%。
(5)质谱结果
1. 逻辑回归算法介绍
逻辑回归是临床医学最常用的分类算法之一,属于广义线性回归。普通二分类逻辑回归基于逻辑函数将二分类分类曲线模式转换为线性形式,即/>,/>表示截距,/>表示第i个特征的系数值,/>表示第i个特征值。惩罚逻辑回归属于普通逻辑回归的拓展,即在寻找最佳线性拟合时在损失函数的基础上加入正则化项,使得模型预测新样本具有更好的泛化性能,确定最佳线性拟合即可确定各特征值对应的系数值。
具体的,将转换为,其中/>,首先定义损失参数为/>,常用的正则化项采用范数,即L1范数,L2范数,elastic net,其中,elastic net可表示为L1范数+L2范数。/>。若加入的为elasticnet,那么/>的最小化为最佳线性拟合,m表示样本个数,n表示特征个数或者分子标志物个数。
使用逻辑回归(Logistic regression)分别对3个对比组做分类预测模型。3个对比组分别是对照组和乳腺良性肿瘤,对照组和乳腺癌,乳腺良性肿瘤和乳腺癌。分子标志物为17个分子,采用10 repeat * 5 fold交叉验证方法(5折交叉验证重复10次)计算模型性能。在python3.9编程环境下,调用scikit-learn(version=1.1.3)软件包执行逻辑回归建模。使用的逻辑回归加入的惩罚参数类型为弹性网络(Elastic net),其他参数使用网格搜索法确定最佳参数组合。这里,不局限逻辑回归,还可以使用支持向量机,随机森林等等算法,均可以得到模型结果。
2. 模型性能评估指标计算公式
True positive为真阳样本数目,True negative为真阴样本数目,Totalpopulation为所有样本数目,Predicted positive为预测的阳性样本数目,Predictednegative为预测的阴性样本数目。
3. 对照组和乳腺癌组
基于17个分子筛选出的标志物组合,最高模型预测AUCROC为0.787(95%置信区间范围为0.647-0.928),能达到该预测值的模型很多。表9列出17个分子标志物组合的相关模型性能结果示例,标志物组合不限于表格中的5个模型。5个模型对应的公式请见表10,基于模型公式可以预测未知受试者的尿液样本是否为乳腺癌组,具体和相关新样本预测过程请见下文文字描述。
表9为基于17个分子标志物计算的模型性能展示示例。95%CI表示95%置信区间。
表9
图3为对照组和乳腺癌的模型1 [6-羧基蝶呤,生物蝶呤,腺苷,假尿(嘧啶核)苷,7-羟基-2,4-二氧四氢喋啶,新蝶呤,墨蝶呤] 预测的ROC曲线结果示例。
从ROC曲线可知,对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.827,标准偏差为0.017,验证集在交叉验证实验中的平均曲线面积为0.787,标准偏差为0.072,模型无过拟合和欠拟合问题,并且验证集模型曲线面积超过0.7,说明模型性能较好。
表10为基于17个分子标志物计算的对照组和乳腺癌的模型公式表示示例。
表10
对于未知类型的新样本,基于17个分子标志物的数值和某个模型公式,可以计算公式中的y值,基于y值和公式计算P,这里的e表示自然对数值,P为受试者属于乳腺癌的概率值。可以设定0.5或者0.6,或者0.4等其它数值为cutoff值(阈值),cutoff阈值范围在0到1之间的任意数值,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为正常。
4. 对照组和乳腺良性肿瘤
基于17个分子筛选出的标志物组合,最高模型预测AUCROC为0.772(95%置信区间范围为0.641-0.902),能达到该预测值的模型很多。表11列出17个分子标志物组合的相关模型性能结果示例,标志物组合不限于表格中5个模型。5个模型对应的公式请见表12,基于模型公式可以预测未知受试者的尿液样本是否为乳腺良性肿瘤组,具体和相关新样本预测过程请见后文描述。
表11基于17个分子标志物计算的模型性能展示示例。95%CI表示95%置信区间。
表11
图4是对照组和乳腺良性肿瘤模型1 [2,4-二氧四氢喋啶,墨蝶呤,胞嘧啶核苷,生物蝶呤,鸟嘌呤核苷,5-甲基尿甙,蝶呤,8-羟基-2-脱氧鸟苷,假尿(嘧啶核)苷] 的ROC曲线示意图。
从ROC曲线可知,对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.815,标准偏差为0.017,验证集在交叉验证实验中的平均曲线面积为0.772,标准偏差为0.067,模型无过拟合和欠拟合问题,并且验证集模型曲线面积超过0.7,说明模型性能较好。
表12为对照组和乳腺良性肿瘤基于17个分子标志物计算的模型公式表示示例。
表12
对于未知类型的新样本,基于17个分子标志物的数值和某个模型公式,可以计算公式中的y值,基于y值和公式计算P,这里的e表示自然对数值,P为受试者属于乳腺良性肿瘤的概率值。可以设定0.5或者0.6,或者0.4等其它数值为cutoff值,cutoff阈值范围在0到1之间的任意数值,若P大于设定的cutoff,那么受试者类型预测为乳腺良性肿瘤,否则为正常。
5. 乳腺良性肿瘤和乳腺癌组
基于17个分子筛选出的标志物组合,最高模型预测AUCROC为0.712(95%置信区间范围为0.526-0.897),能达到该预测值的模型很多。表13列出17个分子标志物组合的相关模型性能结果示例,标志物组合不限于表格中的5个模型。基于模型预测公式可以预测未知受试者的尿液样本是否为乳腺癌组,具体请见表14和相关新样本预测过程文字描述。
表13为乳腺良性肿瘤和乳腺癌组基于17个分子标志物计算的模型性能展示示例,95%CI表示95%置信区间。
表13
表14为乳腺良性肿瘤和乳腺癌组基于17个分子标志物计算的模型公式表示示例。
表14
图5为乳腺良性肿瘤和乳腺癌组模型1 [8-羟基-2-脱氧鸟苷,6-羧基蝶呤,黄(嘌呤核)苷,鸟嘌呤核苷,新蝶呤,7-羟基-2,4-二氧四氢喋啶] 的ROC曲线示意图。
从ROC曲线可知,对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.758,标准偏差为0.022,验证集在交叉验证实验中的平均曲线面积为0.712,标准偏差为0.095,模型无过拟合和欠拟合问题,并且验证集模型曲线面积超过0.7,说明模型性能较好。
对于未知类型的新样本,基于17个分子标志物的数值和某个模型公式,可以计算公式中的y值,基于y值和公式计算P,这里的e表示自然对数值,P为受试者属于乳腺癌的概率值。可以设定0.5或者0.6,或者0.4等为cutoff值,cutoff阈值范围在0到1之间的任意数值,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为乳腺良性肿瘤。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (8)
1.生物标志物组合在制备乳腺癌预测产品中的应用,其特征在于,所述乳腺癌预测产品用于预测受试者为乳腺癌或正常;
预测受试者为乳腺癌或正常的生物标志物组合包括:
6-羧基蝶呤、生物蝶呤、腺苷、假尿嘧啶核苷、7-羟基-2,4-二氧四氢喋啶、新蝶呤和墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、腺苷、假尿嘧啶核苷、7-羟基-2,4-二氧四氢喋啶、单蝶呤和墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、单蝶呤和墨蝶呤;
或,6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、新蝶呤和墨蝶呤;
或,6-羧基蝶呤、腺苷、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、黄嘌呤核苷、单蝶呤和蝶呤。
2.生物标志物组合在制备乳腺癌预测产品中的应用,其特征在于,所述乳腺癌预测产品用于预测受试者为乳腺良性肿瘤或正常;
预测受试者为乳腺良性肿瘤或正常的生物标志物组合包括:
2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤和8-羟基-2-脱氧鸟苷;
或,2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和腺苷;
或,2,4-二氧四氢喋啶、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、单蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷。
3.生物标志物组合在制备乳腺癌预测产品中的应用,其特征在于,所述乳腺癌预测产品用于预测受试者为乳腺良性肿瘤或乳腺癌;
预测受试者为乳腺良性肿瘤或乳腺癌的生物标志物组合包括:
8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷、新蝶呤和7-羟基-2,4-二氧四氢喋啶;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷和新蝶呤;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷和单蝶呤;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷、单蝶呤和7-羟基-2,4-二氧四氢喋啶;
或,8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、5-甲基尿甙、鸟嘌呤核苷和单蝶呤。
4.一种乳腺癌分类预测模型,其特征在于,所述乳腺癌分类预测模型包括:
(1)数据获取模块:用于获取对照组、乳腺良性肿瘤组和乳腺癌组的尿液样本样品中权利要求1-3中任一项所述的生物标志物组合的质谱数据;
(2)数据分析模块:用于对3个对比组做统计显著性分析,对比组包括对照组和乳腺良性肿瘤组、对照组和乳腺癌组、乳腺良性肿瘤组和乳腺癌组;
(3)分类预测模型构建模块:用于构建对照组和乳腺癌组的分类预测模型、对照组和乳腺良性肿瘤组的分类预测模型、乳腺良性肿瘤组和乳腺癌组的分类预测模型;分别将3个对比组中的质谱数据分为训练集和测试集,使用逻辑回归分别对3个对比组做分类预测模型;
(4)分类预测结果输出模块:用于将受试者尿液样本中的分子标志物的数值代入分类预测模型的模型公式,基于模型公式的输出值计算受试者的分类概率值和输出分类结果。
5.根据权利要求4所述的乳腺癌分类预测模型,其特征在于,分类预测模型构建模块中,采用10 repeat * 5 fold交叉验证方法计算模型性能;在python3.9编程环境下,调用scikit-learn软件包执行逻辑回归建模;使用的逻辑回归加入的惩罚参数类型为弹性网络,其他参数使用网格搜索法确定最佳参数组合;
分类预测结果输出模块中,概率值计算公式如下所示:
;
式中,y表示模型的预测值,所述预测值为根据模型公式计算得到的Y值,e表示自然对数值,P表示受试者的分类概率值。
6.根据权利要求5所述的乳腺癌分类预测模型,其特征在于,分类预测模型构建模块中,对照组和乳腺癌组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-1.451+(-1.466*6-羧基蝶呤)+(-1.604*生物蝶呤)+(0.702*腺苷)+(-0.722*假尿嘧啶核苷)+(0.858*7-羟基-2,4-二氧四氢喋啶)+(0.502*新蝶呤)+(0.960*墨蝶呤);
模型2:Y=-1.461+(-1.427*6-羧基蝶呤)+(-1.699*生物蝶呤)+(0.774*腺苷)+(-0.676*假尿嘧啶核苷)+(0.859*7-羟基-2,4-二氧四氢喋啶)+(0.413*单蝶呤)+(1.004*墨蝶呤);
模型3:Y=-1.377+(-1.861*6-羧基蝶呤)+(-0.939*生物蝶呤)+(-0.506*2,4-二氧四氢喋啶)+(-0.316*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.136*7-羟基-2,4-二氧四氢喋啶)+(0.549*单蝶呤)+(0.869*墨蝶呤);
模型4:Y=-1.371+(-1.860*6-羧基蝶呤)+(-0.952*生物蝶呤)+(-0.484*2,4-二氧四氢喋啶)+(-0.277*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.085*7-羟基-2,4-二氧四氢喋啶)+(0.573*新蝶呤)+(0.845*墨蝶呤);
模型5:Y=-1.327+(-1.892*6-羧基蝶呤)+(0.561*腺苷)+(-1.043*2,4-二氧四氢喋啶)+(1.226*7-羟基-2,4-二氧四氢喋啶)+(-0.420*黄嘌呤核苷)+(0.493*单蝶呤)+(0.451*蝶呤);
分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为正常。
7.根据权利要求5所述的乳腺癌分类预测模型,其特征在于,分类预测模型构建模块中,对照组和乳腺良性肿瘤组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-0.591+(-0.812*2,4-二氧四氢喋啶)+(1.193*墨蝶呤)+(-0.860*胞嘧啶核苷)+(-1.178*生物蝶呤)+(2.187*鸟嘌呤核苷)+(0.693*5-甲基尿甙)+(0.577*蝶呤)+(-0.489*8-羟基-2-脱氧鸟苷)+(0.332*假尿嘧啶核苷);
模型2:Y=-0.566+(-1.121*2,4-二氧四氢喋啶)+(0.316*墨蝶呤)+(-0.813*胞嘧啶核苷)+(-0.595*6-羧基蝶呤)+(2.106*鸟嘌呤核苷)+(0.672*5-甲基尿甙)+(0.906*蝶呤)+(-0.445*8-羟基-2-脱氧鸟苷)+(0.574*假尿嘧啶核苷);
模型3:Y=-0.569+(-0.576*2,4-二氧四氢喋啶)+(0.956*墨蝶呤)+(-0.715*胞嘧啶核苷)+(-0.842*生物蝶呤)+(-0.261*6-羧基蝶呤)+(1.696*鸟嘌呤核苷)+(0.655*5-甲基尿甙)+(0.577*蝶呤)+(-0.264*8-羟基-2-脱氧鸟苷);
模型4:Y=-0.605+(-0.703*2,4-二氧四氢喋啶)+(1.242*墨蝶呤)+(-0.914*胞嘧啶核苷)+(-1.173*生物蝶呤)+(1.988*鸟嘌呤核苷)+(0.688*5-甲基尿甙)+(0.535*蝶呤)+(-0.410*8-羟基-2-脱氧鸟苷)+(0.253*腺苷);
模型5:Y=-0.592+(-0.990*2,4-二氧四氢喋啶)+(-0.890*胞嘧啶核苷)+(-0.784*6-羧基蝶呤)+(2.081*鸟嘌呤核苷)+(0.743*5-甲基尿甙)+(0.955*蝶呤)+(0.533*单蝶呤)+(-0.503*8-羟基-2-脱氧鸟苷)+(0.404*假尿嘧啶核苷);
分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺良性肿瘤,否则为正常。
8.根据权利要求5所述的乳腺癌分类预测模型,其特征在于,分类预测模型构建模块中,乳腺良性肿瘤组和乳腺癌组的分类预测模型包括模型1-5中任一项,模型公式如下所示:
模型1:Y=-0.515+(0.728*8-羟基-2-脱氧鸟苷)+(-0.857*6-羧基蝶呤)+(-0.798*黄嘌呤核苷)+(-0.808*鸟嘌呤核苷)+(0.448*新蝶呤)+(0.343*7-羟基-2,4-二氧四氢喋啶);
模型2:Y=-0.529+(0.747*8-羟基-2-脱氧鸟苷)+(-0.750*6-羧基蝶呤)+(-0.712*黄嘌呤核苷)+(-0.763*鸟嘌呤核苷)+(0.435*新蝶呤);
模型3:Y=-0.518+(0.744*8-羟基-2-脱氧鸟苷)+(-0.692*6-羧基蝶呤)+(-0.653*黄嘌呤核苷)+(-0.789*鸟嘌呤核苷)+(0.341*单蝶呤);
模型4:Y=-0.502+(0.711*8-羟基-2-脱氧鸟苷)+(-0.780*6-羧基蝶呤)+(-0.717*黄嘌呤核苷)+(-0.803*鸟嘌呤核苷)+(0.334*单蝶呤)+(0.319*7-羟基-2,4-二氧四氢喋啶);
模型5:Y=-0.519+(0.776*8-羟基-2-脱氧鸟苷)+(-0.664*6-羧基蝶呤)+(-0.573*黄嘌呤核苷)+(-0.244*5-甲基尿甙)+(-0.748*鸟嘌呤核苷)+(0.297*单蝶呤);
分类预测结果输出模块中,设定cutoff值,cutoff值的设定范围为0.4-0.6,若P大于设定的cutoff,那么受试者类型预测为乳腺癌,否则为乳腺良性肿瘤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376613.4A CN116106535B (zh) | 2023-04-11 | 2023-04-11 | 生物标志物组合在制备乳腺癌预测产品中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376613.4A CN116106535B (zh) | 2023-04-11 | 2023-04-11 | 生物标志物组合在制备乳腺癌预测产品中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116106535A CN116106535A (zh) | 2023-05-12 |
CN116106535B true CN116106535B (zh) | 2023-08-11 |
Family
ID=86261942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310376613.4A Active CN116106535B (zh) | 2023-04-11 | 2023-04-11 | 生物标志物组合在制备乳腺癌预测产品中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116106535B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8163896B1 (en) * | 2002-11-14 | 2012-04-24 | Rosetta Genomics Ltd. | Bioinformatically detectable group of novel regulatory genes and uses thereof |
CN105675735A (zh) * | 2014-11-19 | 2016-06-15 | 上海市第六人民医院 | 乳腺癌诊断标记物组合、应用及其测定方法 |
WO2019185692A1 (en) * | 2018-03-29 | 2019-10-03 | Universität Heidelberg | Metabolite-based breast cancer detection and diagnosis |
CN114813908A (zh) * | 2022-02-11 | 2022-07-29 | 上海交通大学 | 一种乳腺癌代谢生物标志物组合及其指纹模型构建方法与应用 |
CN115372490A (zh) * | 2021-05-21 | 2022-11-22 | 深圳市绘云生物科技有限公司 | 用于评估腺瘤及结直肠癌风险的生物标志物及其应用 |
CN115798712A (zh) * | 2023-01-29 | 2023-03-14 | 杭州广科安德生物科技有限公司 | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8815519B2 (en) * | 2006-12-22 | 2014-08-26 | Hvidovre Hospital | Method for predicting cancer and other diseases |
US20110151497A1 (en) * | 2009-12-22 | 2011-06-23 | The Regents Of The University Of Michigan | Metabolomic profiling of prostate cancer |
US20200150125A1 (en) * | 2017-03-12 | 2020-05-14 | Yeda Research And Development Co., Ltd. | Methods of diagnosing and prognosing cancer |
-
2023
- 2023-04-11 CN CN202310376613.4A patent/CN116106535B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8163896B1 (en) * | 2002-11-14 | 2012-04-24 | Rosetta Genomics Ltd. | Bioinformatically detectable group of novel regulatory genes and uses thereof |
CN105675735A (zh) * | 2014-11-19 | 2016-06-15 | 上海市第六人民医院 | 乳腺癌诊断标记物组合、应用及其测定方法 |
WO2019185692A1 (en) * | 2018-03-29 | 2019-10-03 | Universität Heidelberg | Metabolite-based breast cancer detection and diagnosis |
CN115372490A (zh) * | 2021-05-21 | 2022-11-22 | 深圳市绘云生物科技有限公司 | 用于评估腺瘤及结直肠癌风险的生物标志物及其应用 |
CN114813908A (zh) * | 2022-02-11 | 2022-07-29 | 上海交通大学 | 一种乳腺癌代谢生物标志物组合及其指纹模型构建方法与应用 |
CN115798712A (zh) * | 2023-01-29 | 2023-03-14 | 杭州广科安德生物科技有限公司 | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 |
Non-Patent Citations (1)
Title |
---|
Gamagedara S 等.Investigation of urinary pteridine levels as potential biomarkers for noninvasive diagnosis of cancer.Clin Chim Acta.2010,第412卷第120-128页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116106535A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6675104B2 (en) | Method for analyzing mass spectra | |
US20020193950A1 (en) | Method for analyzing mass spectra | |
AU2002241535A1 (en) | Method for analyzing mass spectra | |
CN104471402A (zh) | 用于三阴性乳腺癌的生物标志 | |
Sinues et al. | Secondary electrospray ionization-mass spectrometry and a novel statistical bioinformatic approach identifies a cancer-related profile in exhaled breath of breast cancer patients: a pilot study | |
Cheng et al. | Metabolomic biomarkers in cervicovaginal fluid for detecting endometrial cancer through nuclear magnetic resonance spectroscopy | |
US20170059581A1 (en) | Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles | |
CN116559453A (zh) | 一种用于肺癌检测的生物标志物 | |
CN115798712B (zh) | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 | |
CN111440869A (zh) | 一种用于预测原发性乳腺癌发生风险的dna甲基化标记物及其筛选方法和应用 | |
Liu et al. | Detection of endometriosis with the use of plasma protein profiling by surface-enhanced laser desorption/ionization time-of-flight mass spectrometry | |
CN114924073B (zh) | 结直肠进展期肿瘤诊断标志物组合及其应用 | |
CN112748191A (zh) | 诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用 | |
CN116106534B (zh) | 生物标志物组合在制备肺癌预测产品中的应用 | |
CN116106535B (zh) | 生物标志物组合在制备乳腺癌预测产品中的应用 | |
CN116287279B (zh) | 用于检测胰腺癌的生物标志物及其应用 | |
CN114758719B (zh) | 一种结直肠癌预测系统及其应用 | |
CN114755422B (zh) | 一种结直肠癌检测的生物标志物及其应用 | |
CN108334747B (zh) | 获取肿瘤尿蛋白标志物的方法及得到的肿瘤相关离群尿蛋白库 | |
WO2022240891A1 (en) | Salivary metabolites are non-invasive biomarkers of hcc | |
US20230402131A1 (en) | Biomarker and diagnosis system for colorectal cancer detection | |
CN116386716B (zh) | 用于胃癌诊断的代谢物组学及方法 | |
Liu et al. | Using SELDI‐TOF MS to identify serum biomarkers of rheumatoid arthritis | |
CN112255333B (zh) | 卵巢肿瘤尿液代谢标志物及其应用 | |
CN116087530B (zh) | 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086839 Country of ref document: HK |