CN116087530A - 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 - Google Patents
用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116087530A CN116087530A CN202310315892.3A CN202310315892A CN116087530A CN 116087530 A CN116087530 A CN 116087530A CN 202310315892 A CN202310315892 A CN 202310315892A CN 116087530 A CN116087530 A CN 116087530A
- Authority
- CN
- China
- Prior art keywords
- pancreatic cancer
- nse
- cea
- hcg
- free
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6893—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/74—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving hormones or other non-cytokine intercellular protein regulatory factors such as growth factors, including receptors to hormones and growth factors
- G01N33/76—Human chorionic gonadotropin including luteinising hormone, follicle stimulating hormone, thyroid stimulating hormone or their receptors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2333/00—Assays involving biological materials from specific organisms or of a specific nature
- G01N2333/435—Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
- G01N2333/46—Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
- G01N2333/47—Assays involving proteins of known structure or function as defined in the subgroups
- G01N2333/4701—Details
- G01N2333/4725—Mucins, e.g. human intestinal mucin
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2333/00—Assays involving biological materials from specific organisms or of a specific nature
- G01N2333/82—Translation products from oncogenes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2333/00—Assays involving biological materials from specific organisms or of a specific nature
- G01N2333/90—Enzymes; Proenzymes
- G01N2333/988—Lyases (4.), e.g. aldolases, heparinase, enolases, fumarase
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/50—Determining the risk of developing a disease
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/60—Complex ways of combining multiple protein biomarkers for diagnosis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/70—Mechanisms involved in disease identification
- G01N2800/7023—(Hyper)proliferation
- G01N2800/7028—Cancer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Hematology (AREA)
- Immunology (AREA)
- Urology & Nephrology (AREA)
- Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Microbiology (AREA)
- General Physics & Mathematics (AREA)
- Cell Biology (AREA)
- Endocrinology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- Food Science & Technology (AREA)
- Epidemiology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Reproductive Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Software Systems (AREA)
Abstract
本申请公开了一种用于检测胰腺癌的蛋白组合物、装置、设备和存储介质,属于医学检测技术领域。该蛋白组合物包括蛋白CA125、CA19‑9、CA50、CEA、NSE和free‑β‑hCG,基于上述蛋白表达水平的胰腺癌风险评估模型可以用于计算患有胰腺癌的概率,该蛋白组合物的表达水平结合本申请提供的胰腺癌风险评估模型,可以有效检测胰腺癌,其AUC值高于使用任意一个单一蛋白标志物以及临床血清标志物CA19‑9和NSE的检测结果。
Description
技术领域
本申请属于医学检测技术领域,具体涉及用于检测胰腺癌的蛋白组合物、装置、设备和存储介质。
背景技术
在全球范围内,胰腺癌的标化发病率和死亡率(每10万人)分别为3.9和3.7,其发病率几乎等于其死亡率,是世界范围内致死性极高的恶性肿瘤之一。胰腺癌的5年生存率不到8%,可行根治性手术的胰腺癌患者较未行手术的胰腺癌患者预后有显著差异,但单纯的手术治疗仅能将胰腺癌5年生存率提高至10%左右。胰腺癌预后不佳的原因有多种,例如大多数患者在确诊时已经处于晚期;手术后复发、转移的概率仍然很高。为了提升胰腺癌患者生存率,需要更好地辅助胰腺癌患者进行早期筛查、监测治疗以及复发检测。
随着医学研究的不断深入,生物标志物逐渐成为临床上可辅助肿瘤诊断的重要参考指标。目前,蛋白标志物CA19-9是临床上最常见和应用最广泛的用于胰腺癌诊断、预后监测的肿瘤标志物。但是CA19-9作为生物标志物仍然存在一些局限性,例如特异性较差,在Lewis阴性表型中表达量低,以及在患者患有胰腺炎、肝硬化和急性胆管炎等良性疾病时假阳性率增高等。其他常见的蛋白标志物如CEA、TP53等单一蛋白标志物的在敏感性和特异性方面也存在一定的不足。除此之外,另一个重要的限制是检测这些生物标志物需要进行侵入性操作,采集样本比较困难,而且样本还容易受到胆汁、胃液、血液和/或十二指肠等的污染。
因此,寻求在临床上更有效、更灵敏的生物标志物至关重要。
发明内容
1. 要解决的问题
为克服现有技术中胰腺癌诊断及预后监测中使用的生物标志物存在的敏感性和特异性具有局限等问题之一,本申请提供了一种用于检测胰腺癌的蛋白组合物、装置、设备和存储介质,该蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG,同时本申请提供了一种基于上述蛋白表达水平的胰腺癌风险评估模型,利用待测样本中上述蛋白的表达水平及本申请提供的胰腺癌风险评估模型可以计算患有胰腺癌或胰腺癌复发的概率,为进一步诊断患者是否患有胰腺癌提供信息。
2. 技术方案
为了解决上述问题,本申请所采用的技术方案如下:
本申请提供了一种用于检测胰腺癌的蛋白组合物,该蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG,发明人通过对健康人群和胰腺癌患者的蛋白表达水平的分析,发现了上述蛋白组合物中的蛋白表达水平具有显著差异,将该蛋白组合物作为生物标志物,可以用于检测胰腺癌,并可以克服单一生物标志物敏感性、特异性等方面不足的问题。
本申请还提供了上述蛋白组合物在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。
进一步地,上述应用包括基于上述蛋白组合物的胰腺癌风险评估模型,该模型以上述蛋白组合物中各蛋白的表达水平为变量,使用以下Logistics回归方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据,Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据,由于不同蛋白标志物的定量方法和平台不一致,造成蛋白测量值范围的差异,因此使用Z-score的标准化方法,对数据进行标准化处理。
进一步地,上述应用包括基于上述蛋白组合物的胰腺癌检测的装置,该装置包括如下模块:
数据接收模块,用于接受待测患者的上述蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
计算模块,用于计算Logit值和P值,具体包括使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
结果输出模块,用于输出患有胰腺癌的风险,当P值≥设定阈值时,输出患有胰腺癌的风险高,否则输出患有胰腺癌的风险低。
进一步地,上述基于蛋白组合物的胰腺癌检测的装置还包括:检测模块,用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。
进一步地,上述结果输出模块中,设定的阈值为0.4615。
进一步地,上述应用包括基于上述蛋白组合物的用于胰腺癌检测的电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现胰腺癌的检测方法,所述方法包括如下步骤:
S1:检测患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
S2:使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
S3:当P值≥设定阈值时,患有胰腺癌的风险高,否则患有胰腺癌的风险低。
进一步地,上述应用包括基于上述蛋白组合物的用于胰腺癌检测的一种计算机存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述胰腺癌的检测方法。
本申请还提供了一种基于上述蛋白组合物的胰腺癌风险评估模型,该模型以上述蛋白组合物中各蛋白的表达水平为变量,蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG,使用以下Logistics回归方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据,Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据,由于不同蛋白标志物的定量方法和平台不一致,造成蛋白测量值范围的差异,因此使用Z-score的标准化方法,对数据进行标准化处理。
本申请还提供了一种基于上述蛋白组合物的胰腺癌检测装置,该装置包括如下模块:
数据接收模块,用于接受待测患者的上述蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
计算模块,用于计算Logit值和P值,具体包括使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
结果输出模块,用于输出患有胰腺癌的风险,当P值≥设定阈值时,输出患有胰腺癌的风险高,否则输出患有胰腺癌的风险低。
进一步地,上述基于蛋白组合物的胰腺癌检测装置还包括:检测模块,所述检测模块用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。
进一步地,上述结果输出模块中,设定阈值为0.4615。
本申请还提供了一种基于上述蛋白组合物的胰腺癌检测的电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现胰腺癌的风险评估方法,所述风险评估方法包括如下步骤:
S1:检测患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
S2:使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
S3:当P值≥设定阈值时,患有胰腺癌的风险高,否则患有胰腺癌的风险低。
进一步地,上述设定阈值为0.4615。
本申请还提供了一种基于上述蛋白组合物的用于胰腺癌检测的计算机存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述胰腺癌的风险评估方法。
本申请还提供了检测生物标志物的表达水平的试剂在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用,生物标志物包括蛋白组合物,具体包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。
本申请还提供了一种用于胰腺癌检测的试剂盒,该试剂盒包括检测蛋白组合物中蛋白的表达水平的试剂,蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。
进一步地,上述用于胰腺癌检测的试剂盒,还包括上述一种基于上述蛋白组合物的用于胰腺癌检测的装置,和/或上述一种基于上述蛋白组合物的用于胰腺癌检测的计算机存储介质。
本申请还提供了上述检测试剂盒在上述胰腺癌风险评估模型中的应用,用于检测蛋白组合物中蛋白的表达水平,蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。
3. 有益效果
本申请与现有技术相比,其有益效果在于:
(1)本申请提供的一种用于检测胰腺癌的蛋白组合物,包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG,该蛋白组合物在健康人群和胰腺癌的患者血清中的表达水平具有显著差异,在胰腺癌患者血清中的水平相对较高,在健康人群血清中的水平相对较低,该蛋白组合物的表达水平结合本申请提供的胰腺癌风险评估模型,可以计算患者患有胰腺癌的概率,其AUC值高于使用任意一个单一蛋白标志物以及临床血清标志物CA19-9和NSE的检测结果,可以有效检测胰腺癌。
(2)本申请提供的一种基于上述蛋白组合物的用于胰腺癌检测装置,该装置接受蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平后;使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用本申请提供的Logistics回归方程计算Logit值和P值,输出是否患有胰腺癌的结果,能够实现胰腺癌的快速检测。
附图说明
图1是7种蛋白标志物之间的皮尔逊相关系数。
图2是本申请模型在训练集和独立测试集的AUC值结果。
具体实施方式
下面结合具体实施例对本申请进一步进行描述。
需要说明的是,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等用语,亦仅为便于叙述的明了,而非用以限定可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本申请可实施的范畴。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如本文所使用,术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。
如本文所使用,术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如,“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。
浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解,这样的范围格式仅是为了方便和简洁而使用,并且应当灵活地解释为不仅包括明确叙述为范围极限的数值,而且还包括涵盖在所述范围内的所有单独的数值或子范围,就如同每个数值和子范围都被明确叙述一样。例如,约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值,而且还包括单独的数字(诸如2、3、4)和子范围(诸如1至3、2至4等)。相同的原理适用于仅叙述一个数值的范围,诸如“小于约4.5”,应当将其解释为包括所有上述的值和范围。此外,无论所描述的范围或特征的广度如何,都应当适用这种解释。
实施例1
本实施例提供用于检测胰腺癌的蛋白组合物的筛选,其筛选过程如下:
针对69例收集自上海交通大学瑞金医院的经过组织病理学诊断确认为胰腺癌的患者(胰腺癌患者不特别区分早期或者晚期)和110例正常人样本,通过常规医院血清检测获得AFP、CA125、CA19-9、CA242、CA50、CEA、CYFRA21-1、NSE、PG I、PG II、free-β-hCG共11个蛋白的表达水平。
从上述样本中随机选取41例胰腺癌样本和80例正常人样本共121例,按照7:3的比例进一步地分为训练集和验证集;剩余的28例胰腺癌样本和30例健康人样本作为独立测试集。其中,训练集和验证集用于蛋白组合的筛选、模型训练和参数搜索,独立测试集用来测试模型训练的结果。
为了避免离群值对建模的影响,对训练集和独立测试集中的离群值(5%和95%)进行Winsorize缩尾处理。此外,由于不同蛋白标志物的定量方法和平台不一致,造成蛋白测量值范围的差异,因此使用Z-score的标准化方法,对数据进行标准化处理。
使用上述训练集包含28例胰腺癌样本和56例健康人样本共84例样本,对上述11个蛋白的测量结果在健康人和胰腺癌样本中进行Mann-Whitney U双侧检验,从中筛选到具有显著差异的7个蛋白CA125、CA19-9、CA242、CA50、CEA、NSE和free-β-hCG(P<0.01,表1)。通过计算各变量之间的皮尔逊相关系数,发现蛋白CA242和CA19-9具有很强的线性关系(皮尔逊相关系数0.9,图1),为了减少线性相关变量导致的预测误差叠加,在后续的建模过程中去掉CA242。最终确定蛋白组合物为蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。
表1 蛋白标志物的Mann-Whitney U 双侧检验统计量和P值
实施例2
本实施例提供基于上述蛋白组合物的胰腺癌风险评估模型的构建及验证,该模型可以计算患有胰腺癌的概率。构建过程如下:
本实施例1中的训练集中使用5折交叉验证,依次将数据集划分成5份,随机选择其中的4份作为训练集用于构建分类模型,剩余的1份作为验证集数据进行验证,重复上面的过程,得到整个训练集的预测结果并绘制ROC曲线。根据验证集数据上的AUC值,通过随机搜索的方式进行超参数搜索。
使用实施例1筛选和标准化处理后6个蛋白的表达水平数据,使用ElasticNetLogistic Regression模型进行建模,超参数通过交叉验证的方式进行确定。正则化方式为L1正则和L2正则,其中L1正则占比为0.8,L2正则占比为0.2,损失函数的优化使用SAGA算法近似求解。最终的回归系数使用5折交叉验证训练模型得到的回归系数均值(表2),得到的回归模型,即胰腺癌风险评估模型为:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据,Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据。并根据训练集数据中ROC曲线选择约登指数最大处对应的cutoff值作为分类阈值(0.4615)。训练集cutoff值对应的特异度和灵敏度分别为98.48%和90.1%,独立测试集cutoff值对应的特异度和灵敏度分别为96.57%和93.57%。
表2 蛋白标志物组合在训练集5折交叉验证训练上的回归系数
将上述胰腺癌风险评估模型用于验证集和独立测试集,使用标准化处理后的蛋白表达水平,并根据回归方程计算Logit值和P值,当P值≥0.4615时,输出患有胰腺癌,否则输出则未患胰腺癌,其AUC值为0.9848和0.9583(图2)。
结果表明,使用CA125、CA19-9、CA50、CEA、NSE和free-β-hCG六种蛋白组合物针对胰腺癌具有良好的检测效果。
实施例3
本实施例提供一种基于上述蛋白组合物的用于胰腺癌检测装置,该装置包括检测模块、数据接收模块、计算模块和结果输出模块,其中:
检测模块用于检测待测患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
数据接收模块用于接受检测模块检测的蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
计算模块使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
结果输出模块用于输出是否患有胰腺癌,当P值≥0.4615时,输出患有胰腺癌,否则输出未患胰腺癌。
Claims (10)
1.一种用于胰腺癌检测的蛋白组合物,其特征在于,所述蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。
2.权利要求1所述的蛋白组合物在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。
3.检测权利要求1所述的蛋白组合物中各蛋白表达水平的试剂在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。
4.一种胰腺癌风险评估模型,其特征在于,所述风险评估模型以权利要求1中所述的蛋白组合物中各蛋白的表达水平为变量,使用以下Logistics回归方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中:P为患有胰腺癌的概率,CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据,Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据。
5.一种用于胰腺癌检测的装置,其特征在于,所述装置包括如下模块:
数据接收模块,用于接受待测患者的蛋白组合物CA125、CA19-9、CA50、CEA、NSE和free-β-hCG中各蛋白的表达水平;
计算模块,用于计算Logit值和P值,具体包括使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
结果输出模块,用于输出患有胰腺癌的风险,当P值≥设定阈值时,输出患有胰腺癌的风险高,否则输出患有胰腺癌的风险低。
6.根据权利要求5所述的一种用于胰腺癌检测的装置,其特征在于,所述装置还包括:检测模块,所述检测模块用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。
7.根据权利要求5或6所述的一种用于胰腺癌检测的装置,其特征在于,所述设定阈值为0.4615。
8.一种用于胰腺癌检测的电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现胰腺癌的风险评估方法,所述风险评估方法包括如下步骤:
S1:接受患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
S2:使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
S3:当P值≥设定阈值时,患有胰腺癌的风险高,否则患有胰腺癌的风险低。
9.一种用于胰腺癌检测的计算机存储介质,其特征在于,其上存储有计算机程序,其中,程序被处理器执行时实现胰腺癌的风险评估方法,所述风险评估方法包括如下步骤:
S1:接受患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平;
S2:使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据,使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据,并使用以下方程计算Logit值和P值:
Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50),其中P为患有胰腺癌的概率,CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据;
S3:当P值≥设定阈值时,患有胰腺癌的风险高,否则患有胰腺癌的风险低。
10.一种用于胰腺癌检测的试剂盒,其特征在于,所述试剂盒包括检测蛋白组合物CA125、CA19-9、CA50、CEA、NSE和free-β-hCG的表达水平的试剂,还包括权利要求8所述的一种用于胰腺癌检测的电子设备和/或权利要求9所述的一种用于胰腺癌检测的计算机存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310315892.3A CN116087530B (zh) | 2023-03-29 | 2023-03-29 | 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310315892.3A CN116087530B (zh) | 2023-03-29 | 2023-03-29 | 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116087530A true CN116087530A (zh) | 2023-05-09 |
CN116087530B CN116087530B (zh) | 2023-06-20 |
Family
ID=86206723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310315892.3A Active CN116087530B (zh) | 2023-03-29 | 2023-03-29 | 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116087530B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526535A (zh) * | 2009-04-14 | 2009-09-09 | 河南省豫康生物工程技术有限公司 | 多种肿瘤标志物联合检测液相芯片及其制备方法 |
US20140072963A1 (en) * | 2011-03-16 | 2014-03-13 | Beijing Unidiag Technology Inc | Electrochemiluminescence immunoassay method |
CN103869068A (zh) * | 2012-12-18 | 2014-06-18 | 广州瑞博奥生物科技有限公司 | 一种用于多种肿瘤诊断的抗体芯片试剂盒 |
US20140271621A1 (en) * | 2013-03-14 | 2014-09-18 | Abbott Laboratories | Methods of prognosis and diagnosis of pancreatic cancer |
CN107723363A (zh) * | 2016-08-11 | 2018-02-23 | 博尔诚(北京)科技有限公司 | 肿瘤标志物的组合检测方法及其应用 |
CN109371133A (zh) * | 2018-12-03 | 2019-02-22 | 江苏大学附属医院 | 一组与胰腺癌相关的LncRNA分子标记物及其应用 |
CN111489829A (zh) * | 2020-05-29 | 2020-08-04 | 杭州广科安德生物科技有限公司 | 构建体外检测胰腺癌的数学模型的方法及其应用 |
-
2023
- 2023-03-29 CN CN202310315892.3A patent/CN116087530B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526535A (zh) * | 2009-04-14 | 2009-09-09 | 河南省豫康生物工程技术有限公司 | 多种肿瘤标志物联合检测液相芯片及其制备方法 |
US20140072963A1 (en) * | 2011-03-16 | 2014-03-13 | Beijing Unidiag Technology Inc | Electrochemiluminescence immunoassay method |
CN103869068A (zh) * | 2012-12-18 | 2014-06-18 | 广州瑞博奥生物科技有限公司 | 一种用于多种肿瘤诊断的抗体芯片试剂盒 |
US20140271621A1 (en) * | 2013-03-14 | 2014-09-18 | Abbott Laboratories | Methods of prognosis and diagnosis of pancreatic cancer |
CN107723363A (zh) * | 2016-08-11 | 2018-02-23 | 博尔诚(北京)科技有限公司 | 肿瘤标志物的组合检测方法及其应用 |
CN109371133A (zh) * | 2018-12-03 | 2019-02-22 | 江苏大学附属医院 | 一组与胰腺癌相关的LncRNA分子标记物及其应用 |
CN111489829A (zh) * | 2020-05-29 | 2020-08-04 | 杭州广科安德生物科技有限公司 | 构建体外检测胰腺癌的数学模型的方法及其应用 |
Non-Patent Citations (4)
Title |
---|
FANGFENG LIU 等: "Multiple tumor marker protein chip detection system in diagnosis of pancreatic cancer", 《WORLD JOURNAL OF SURGICAL ONCOLOGY》, vol. 12, no. 333, pages 1 - 4 * |
吴伟晴 等: "血清肿瘤标志物在五种消化系统肿瘤诊断中的价值", 《现代消化及介入诊疗》, vol. 21, no. 4, pages 550 - 554 * |
梁仲城 等: "流式荧光技术联合检测多种肿瘤标志物的临床应用", 《中国医药指南》, vol. 17, no. 14, pages 131 - 133 * |
马征远 等: "全球肿瘤生物标志物研发与应用态势分析", 《生物产业技术》, vol. 57, no. 1, pages 21 - 27 * |
Also Published As
Publication number | Publication date |
---|---|
CN116087530B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chetty et al. | Role of attributes selection in classification of Chronic Kidney Disease patients | |
CN105219844B (zh) | 一种筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型 | |
CN111739641A (zh) | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 | |
JP2011516046A5 (zh) | ||
WO2013119871A1 (en) | A multi-biomarker-based outcome risk stratification model for pediatric septic shock | |
Graca et al. | Mid-infrared (MIR) metabolic fingerprinting of amniotic fluid: a possible avenue for early diagnosis of prenatal disorders? | |
CN105603101A (zh) | 检测8个miRNA表达量的系统在制备诊断或辅助诊断肝细胞癌产品中的应用 | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
CN109557311A (zh) | 结直肠癌诊断标志物及结直肠癌的检测产品及其应用 | |
Cotton et al. | A model using clinical and endoscopic characteristics identifies patients at risk for eosinophilic esophagitis according to updated diagnostic guidelines | |
Harpaz et al. | Blood biomarkers to detect new-onset atrial fibrillation and cardioembolism in ischemic stroke patients | |
CN111834006A (zh) | 一种基于尿酸值域范围智能疾病认知系统 | |
CN116287279B (zh) | 用于检测胰腺癌的生物标志物及其应用 | |
CN116087530B (zh) | 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质 | |
WO2008073046A1 (en) | Method for determining health status by analyzing analytes | |
CN116735889B (zh) | 一种用于结直肠癌早期筛查的蛋白质标志物、试剂盒及应用 | |
CN117169320A (zh) | 一组用于结直肠癌诊断的血液多金属离子组合及其应用 | |
CN114252612B (zh) | 基于神经细胞粘附分子的肝癌转移预测系统及方法 | |
CN114974562A (zh) | 一种基于机器学习的重症胰腺炎的临床预测模型构建方法 | |
Wu et al. | A clinical-radiomic model for predicting indocyanine green retention rate at 15 min in patients with hepatocellular carcinoma | |
WO2021001303A1 (en) | Succinate as a biomarker for selecting a bariatric surgical procedure and for predicting type 2 diabetes remission after bariatric surgery | |
Meyer et al. | A Supervised Machine Learning Approach with Feature Selection for Sex-Specific Biomarker Prediction | |
US20110111432A1 (en) | Diagnostic method for peanut allergy | |
EP2730922B1 (en) | Method and system for detecting lymphosarcoma in cats using biomarkers | |
CN117789972B (zh) | 一种乳腺癌复发预测模型的构建方法及其预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |