CN116626297B - 一种用于胰腺癌检测的系统及其试剂或试剂盒 - Google Patents

一种用于胰腺癌检测的系统及其试剂或试剂盒 Download PDF

Info

Publication number
CN116626297B
CN116626297B CN202310905887.8A CN202310905887A CN116626297B CN 116626297 B CN116626297 B CN 116626297B CN 202310905887 A CN202310905887 A CN 202310905887A CN 116626297 B CN116626297 B CN 116626297B
Authority
CN
China
Prior art keywords
pancreatic cancer
biomarker
value
protein
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310905887.8A
Other languages
English (en)
Other versions
CN116626297A (zh
Inventor
高俊莉
高俊顺
童明杰
彭小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Guangke Ander Biotechnology Co ltd
Original Assignee
Hangzhou Guangke Ander Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Guangke Ander Biotechnology Co ltd filed Critical Hangzhou Guangke Ander Biotechnology Co ltd
Priority to CN202310905887.8A priority Critical patent/CN116626297B/zh
Publication of CN116626297A publication Critical patent/CN116626297A/zh
Application granted granted Critical
Publication of CN116626297B publication Critical patent/CN116626297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57438Specifically defined cancers of liver, pancreas or kidney
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Urology & Nephrology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Hematology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Cell Biology (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Food Science & Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Primary Health Care (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)

Abstract

本申请公开了一种用于胰腺癌检测的系统及其试剂或试剂盒。系统包括:数据分析模块,用于分析生物标志物在样本中的检测值,所述生物标志物包括DKK3、PNLIP、SRSF1、SRSF4中的至少一种。由于本申请利用蛋白组学的方法,通过分析胰腺癌患者和正常人的血液中具有显著性差异的蛋白质,筛选出能早期预示胰腺癌发生风险的生物标记物,并采用筛选出的生物标志物构建胰腺癌预测模型,用于便捷、无创、高效地预测个体是否患胰腺癌,满足临床所需。

Description

一种用于胰腺癌检测的系统及其试剂或试剂盒
技术领域
本申请涉及医学以及智慧医疗技术领域,涉及一种用于胰腺癌检测的系统及其试剂或试剂盒,特别涉及胰腺癌的生物标志物用于胰腺癌的预测,尤其涉及一种预测胰腺癌发生风险的生物标志物及其应用。
背景技术
胰腺癌的发病率和死亡率呈逐年增加趋势。胰腺导管腺癌大约占胰腺恶性肿瘤的85%,全球每年将近有30万人死于胰腺导管腺癌。目前胰腺导管腺癌是造成癌症相关死亡的第四大癌症。流行病学分析表明,随着发病率的不断攀升,到2030年胰腺导管腺癌将超过结直肠癌和乳腺癌成为癌症相关死亡的第二大癌症。胰腺导管腺癌患者的中位生存时间为6个月,5年生存率仅为8%,是恶性程度最高的肿瘤。其预后极差的主要原因为:缺乏敏感性和特性均高的肿瘤标志物对高风险人群进行早期筛查;高侵袭与高转移的生物学特征,在肿瘤的早期就发生局部的侵犯和远端转移;对放化疗及靶向治疗不敏感。手术切除是胰腺癌获得根治的唯一选择,但胰腺癌手术切除率低,只有约15%的患者存在手术切除机会。由于胰腺癌早期症状不明显难以被发现,大多数患者确诊时已经是中晚期,治愈率低,预后较差,提高胰腺癌的早期预测率可显著提高患者的生存率。然而,目前临床尚无有效的早期预测标志物,开发具有临床早期预测潜力的预测方法对于降低胰腺癌死亡率具有重要意义。
蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学,包括对蛋白质表达模式和蛋白质组功能模式的研究。随着蛋白组学技术的发展,高效液相色谱-高分辨串联质谱联用技术逐渐成为蛋白质组学的主流技术,越来越多的新型肿瘤标志物被发现。尽管对于新型肿瘤标志物的发现近几年有很多文章和专利的报道,但都仅停留在实验室研究阶段,在临床应用及市场推广上很少。而且,在多数情况下,对于肿瘤的体外预测,单一指标是远远不够的,只有采用组合联检形式,把各种维度的检测组合起来,才能加强预测的精准度。因此,寻找新的胰腺癌预测相关标志物,将多种标志物相结合构建胰腺癌预测预测表达式,具有重要的临床价值。
发明内容
本申请实施例提供了一种用于胰腺癌检测的系统及其试剂或试剂盒。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
本申请实施例提供了一种实现用于胰腺癌检测的系统,系统包括:数据分析模块;其中,
数据分析模块,用于分析生物标志物在样本中的检测值;所述生物标志物选自标志物集合中至少一种标志物,标志物集合包括: DKK3、PNLIP、SRSF1、SRSF4。
可选的,所述标志物集合还包括DKK1、Reg3A、THBS2中的至少一种和上述集合DKK3、PNLIP、SRSF1以及SRSF4中至少一种的组合。组合形式可包含:DKK3和Reg3A;或DKK3、Reg3A和THBS2;或DKK3、Reg3A、SRSF4和THBS2;或DKK3、Reg3A、SRSF1、SRSF4和THBS2;或DKK1、DKK3、Reg3A、SRSF1、SRSF4和THBS2;或DKK1、DKK3、PNLIP、Reg3A、SRSF1、SRSF4和THBS2。
可选的,DKK1为Dickkopf相关蛋白1,Dickkopf相关蛋白1的uniprot数据库编号为O94907 的蛋白或者氨基酸序列;DKK3为Dickkopf相关蛋白3,Dickkopf相关蛋白3的uniprot数据库编号为Q9UBP4的蛋白或者氨基酸序列;PNLIP为胰三酰甘油脂肪酶,胰三酰甘油脂肪酶的uniprot数据库编号为P16233的蛋白或者氨基酸序列;Reg3A为再生胰岛衍生蛋白,再生胰岛衍生蛋白的uniprot数据库编号为Q06141的蛋白或者氨基酸序列;SRSF1为丝氨酸/精氨酸丰富剪接因子1,丝氨酸/精氨酸丰富剪接因子1的uniprot数据库编号为Q07955的蛋白或者氨基酸序列;SRSF4为丝氨酸/精氨酸丰富剪接因子4,丝氨酸/精氨酸丰富剪接因子4的uniprot数据库编号为Q08170的蛋白或者氨基酸序列;THBS2血小板反应蛋白2,血小板反应蛋白2的uniprot数据库编号为P35442的蛋白或者氨基酸序列。
可选的,样本为目标对象的组织、血液、尿液、唾液、汗液或粪便中的任意一种。
可选的,所述分析生物标志物在样本中的检测值,包括:
对所述样本进行酶联免疫吸附检测(ELISA),以获取所述样本中生物标志物的数量或者含量。
可选的,数据分析模块,还用于根据生物标志物检测值计算目标对象是否是胰腺癌的预测值,并基于预测值判定目标对象是否是胰腺癌。
可选的,根据生物标志物检测值计算目标对象是否是胰腺癌的预测值,包括:
加载预先训练的胰腺癌预测模型;
将检测的标志物浓度代入预先训练的胰腺癌预测模型中,输出用于预测目标对象是否是胰腺癌的预测值;其中,
预先训练的胰腺癌预测模型的胰腺癌预测方程表达式为:
;其中,
Y为预测值,i表示第i个生物标志物,m表示生物标志物的个数,表示第i个生物标志物的检测值,/>表示第i个生物标志物的系数,b为常数3.82。
可选的,基于预测值判定目标对象是否是胰腺癌,包括:
当预测值小于等于预设阈值时,判定目标对象不是胰腺癌患者;或者,当预测值大于预设阈值时,判定目标对象是胰腺癌患者;其中,
预设阈值为0.393。
可选的,的系数如下表所示:
本申请实施例提供的技术方案可以包括以下有益效果:
(1)本申请利用蛋白组学的方法,通过分析胰腺癌患者和正常人的血液中具有显著性差异的蛋白质,筛选出能早期预示胰腺癌发生风险的生物标记物,并采用筛选出的生物标志物构建胰腺癌预测模型,用于便捷、无创、高效地预测个体是否患胰腺癌,满足临床所需。
(2)分别采用不同的生物标志物或生物标志物的组合构建胰腺癌预测模型,发现当采用了包括DKK1、DKK3、PNLIP、Reg3A、SRSF1、SRSF4、THBS2的7种生物标志物构建的胰腺癌预测模型时,曲线下面积AUC值达到0.972,其效果明显好于现有的胰腺癌预测模型,可用于更高效地预测个体是否患胰腺癌。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例提供的一种蛋白组学研究中胰腺癌与胰腺炎和健康对照之间的火山图;
图2是本申请实施例提供的一种胰腺癌与胰腺炎和健康对照之间的ROC分析结果图;
图3是本申请实施例提供的一种基于8种不同算法构建的最优模型性能评估结果图;
图4是本申请实施例提供的一种胰腺癌诊断模型在模型组中的ROC曲线;
图5是本申请实施例提供的一种胰腺癌诊断模型在测试组中的ROC曲线;
图6是本申请实施例提供的一种构建的胰腺癌诊断模型在测试组中的性能评估结果图;
图7是本申请实施例提供的不同生物标志物组合所构建诊断模型的ROC曲线下面积比较图;
图8是本申请实施例提供的一种胰腺癌诊断模型与传统标志物及其组合的ROC曲线下面积比较图。
具体实施方式
以下描述和附图充分地示出本申请的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的系统和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请提供了一种用于胰腺癌检测的系统及其试剂或试剂盒,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,本申请利用蛋白组学的方法,通过分析胰腺癌患者和正常人的血液中具有显著性差异的蛋白质,筛选出多个能早期预示胰腺癌发生风险的生物标记物,并采用筛选出的生物标志物构建胰腺癌预测模型,用于便捷、无创、高效地预测个体是否患胰腺癌,满足临床所需,下面采用示例性的实施例进行详细说明。
实施例1
利用蛋白组学筛选胰腺癌的生物标志物包括:
1、血清样本的收集;所有纳入研究的志愿者在血清样本采集前均签署了知情同意书。在相同条件下收集研究对象的血液标本,采集后静置60分钟后直接取血清,储存于-80℃冰箱保存备用。
2、研究对象;采用病例对照研究方法从中国心血管代谢与恶性肿瘤队列研究(China Cardiometabolic Disease and Cancer Cohort Study,4C)人群中纳入。纳入标准:年龄≥18周岁,性别不限;胰腺癌病例组:纳入经临床病理确诊为胰腺癌,未接受过抗肿瘤治疗的首诊患者;慢性胰腺炎组:纳入经临床预测为慢性胰腺炎的患者;健康对照组:纳入体检无胰腺部位病变,无其他重大疾病或恶性肿瘤的行为健康人群。考虑胰腺癌部分患者有糖尿病史,纳入部分II型糖尿病患者作为阴性对照。排除标准:进行过放化疗或靶向治疗的;进行过胰腺手术的;同时患有其他肿瘤或自身免疫性疾病的患者。最终纳入基线受试者84例,其中包括30例胰腺癌病例组(PC)、14例慢性胰腺炎病例组(P)和40例健康对照组(H)。
例如表1所示,数据显示为平均值±SD(连续变量)或受试者人数(分类变量),P值使用曼-惠特尼检验(连续变量)或卡方检验(分类变量)计算表1结果表明,胰腺癌病例组基线时与对照组无显著差异。
表1:胰腺癌病例及匹配对照的基线特征
3、样本的处理和酶解
血浆样本离心后取上清液并过滤,然后进行免疫亲和色谱脱出高丰度蛋白。用截止分子量为3kDa的浓缩管在离心机上浓缩回后,离心机上进行溶液置换。然后使用BCA方法测定样本中蛋白质浓度。按照表2样本分组情况,加入TCEP进行蛋白质还原后加入对应的TMT-16plex试剂,室温下避光孵育1小时进行TMT标记,然后将标记好的样本混合。使用0.22m过滤器过滤样本并使用2D-HPLC系统分离TMT-16plex标记的样本。对收集的组分进行冷冻干燥,最后加入Trypsin酶,于37℃下孵育酶解样本,加入10%TFA以终止酶解反应。酶解后的2D-HPLC组分被用来进行nano-LC-MS/MS分析。
表2:蛋白组学研究样本分组
样本编号 样本分组 实验批次 TMT-16plex
H1 H B1 127N
H2 H B1 127C
H3 H B1 128N
H4 H B1 128C
H5 H B1 129N
H6 H B1 129C
P1 P B1 130N
P2 P B1 130C
PC1 PC B1 131N
PC2 PC B1 131C
PC3 PC B1 132N
PC4 PC B1 132C
H7 H B2 127N
H8 H B2 127C
H9 H B2 128N
H10 H B2 128C
H11 H B2 129N
H12 H B2 129C
P3 P B2 130N
P4 P B2 130C
PC5 PC B2 131N
PC6 PC B2 131C
PC7 PC B2 132N
PC8 PC B2 132C
H13 H B3 127N
H14 H B3 127C
H15 H B3 128N
H16 H B3 128C
H17 H B3 129N
H18 H B3 129C
P5 P B3 130N
P6 P B3 130C
PC9 PC B3 131N
PC10 PC B3 131C
PC11 PC B3 132N
PC12 PC B3 132C
H19 H B4 127N
H20 H B4 127C
H21 H B4 128N
H22 H B4 128C
H23 H B4 129N
H24 H B4 129C
P7 P B4 130N
P8 P B4 130C
PC13 PC B4 131N
PC14 PC B4 131C
PC15 PC B4 132N
PC16 PC B4 132C
H25 H B5 127N
H26 H B5 127C
H27 H B5 128N
H28 H B5 128C
H29 H B5 129N
H30 H B5 129C
P9 P B5 130N
P10 P B5 130C
PC17 PC B5 131N
PC18 PC B5 131C
PC19 PC B5 132N
PC20 PC B5 132C
H31 H B6 127N
H32 H B6 127C
H33 H B6 128N
H34 H B6 128C
H35 H B6 129N
P11 P B6 129C
P12 P B6 130N
PC21 PC B6 130C
PC22 PC B6 131N
PC23 PC B6 131C
PC24 PC B6 132N
PC25 PC B6 132C
H36 H B7 127N
H37 H B7 127C
H38 H B7 128N
H39 H B7 128C
H40 H B7 129N
P13 P B7 129C
P14 P B7 130N
PC26 PC B7 130C
PC27 PC B7 131N
PC28 PC B7 131C
PC29 PC B7 132N
PC30 PC B7 132C
4、LC-MS/MS数据采集与搜库分析
LC-MS/MS系统为Easy-nLC 1200和Q Exactive HFX联用,流动相A为含0.1%甲酸和2%乙腈的水溶液;流动相B为含0.1%甲酸和80%乙腈的水溶液。1μg肽段用流动相A相溶解后使用EASY-nLC 1200超高效液相系统进行分离。液相梯度设置:0-26min,7%~22%B;26-34min,22%~32%B;34-37min,32%~80%B;37-40min,80%B,液相流速维持在450nL/min。高效液相系统分离后的肽段注入离子源雾化后进Q Exactive HF-X进行质谱分析。数据依赖型扫描(DDA)模式设定TOP 20母离子依次进入HCD碰撞池碎裂后依次进行二级质谱分析。自动增益控制(AGC)设置为5E4,信号阈值设置为1E4,最大注入时间设置为22ms,串联质谱分析的动态排除时间设置为30秒。
通过LC-MS/MS获得的质谱数据使用Maxquant (v1.6.15.0)进行检索。数据类型为基于二级报告离子定量的TMT蛋白质组学数据,用于定量的二级谱图要求一级谱图中母离子占比大于75%。数据库来源Uniprot数据库的Homo_sapiens_9606_proteome (release:2021-10-14,sequence: 20614),并且在数据库中加入了常见的污染库,数据分析时删除污染蛋白;酶切方式设置为Trypsin/P;漏切位点数设为2;First search和Main search的母离子质量误差容忍度分别设为20ppm和5ppm,二级碎片离子的质量误差容忍度为20ppm。固定修饰为半胱氨酸烷基化,可变修饰为甲硫氨酸的氧化和蛋白N端的乙酰化。蛋白鉴定、PSM鉴定的FDR设置为1%。
5、差异蛋白质筛选
采用线性回归方式进行差异蛋白质的筛选,其主要包括蛋白质在不同分组中的显著性分析(p值或FDR值)和倍数变化(Fold change)。基于质谱数据分析,共鉴定到3053种蛋白物质,其中包括部分全新发现的与胰腺癌相关的标志物。针对鉴定到的3053种蛋白物质,基于对定量数据的统计分析寻找在两组样本中丰度显著差异的蛋白质。所有统计分析均使用R完成,具体的R相关信息见表3。
表3:本申请所用的R及其相关信息
基于上述统计分析结果,我们定义:FDR<0.05且log2Fold change>0.2为显著上调蛋白质;FDR<0.05且log2Fold change<-0.2为显著下调蛋白质。如图1所示:在胰腺癌与健康对照之间筛选得到158个下调蛋白和151个上调蛋白;在胰腺癌与慢性胰腺炎之间筛选得到45个下调蛋白和48个上调蛋白。log2FC中的FC即fold change,表示两样品(组)间表达量的比值,对其取以2为底的对数之后即为log2FC。
为了筛选出适合胰腺癌预测的候选标志物,我们将上述两个比较组中同时上调的蛋白质定义为胰腺癌预测标志物,最终我们获得7种标志物。本申请发现主要显著的7种差异蛋白质见表4:
表4:胰腺癌预测标志物
表4中FDR值越小,在一定程度上说明该蛋白质在两组间的差异性越显著,同时也说明该差蛋白质可能具有更高的预测价值。
根据表4,共发现了7种差异蛋白,在胰腺癌组和非胰腺癌组间的差异显著,部分蛋白已被现有技术公开。其中,鉴别胰腺癌与健康对照差异最显著的是再生胰岛衍生蛋白3-α(Reg3A),鉴别胰腺癌与慢性胰腺炎差异最显著的是胰三酰甘油脂肪酶(PNLIP)。
经确认,胰三酰甘油脂肪酶(PNLIP)的uniprot数据库编号为P16233的蛋白或者氨基酸序列;丝氨酸/精氨酸丰富剪接因子1-(SRSF1)的uniprot数据库编号为Q07955的蛋白或者氨基酸序列;血小板反应蛋白2-(THBS2)的uniprot数据库编号为P35442的蛋白或者氨基酸序列;丝氨酸/精氨酸丰富剪接因子4-(SRSF4)的uniprot数据库编号为Q08170的蛋白或者氨基酸序列;Dickkopf相关蛋白1-(DKK1)的uniprot数据库编号为O94907的蛋白或者氨基酸序列;再生胰岛衍生蛋白3-α-(Reg3A)的uniprot数据库编号为Q06141的蛋白或者氨基酸序列;Dickkopf相关蛋白3-(DKK3)的uniprot数据库编号为Q9UBP4的蛋白或者氨基酸序列。全新发现的胰腺癌差异生物标志物,可作为胰腺癌与健康鉴别预测的候选生物标志物,选择其中的一种或多种的组合,可用于胰腺癌的辅助预测。
实施例2
7种单一生物标志物预测胰腺癌:
本实施例利用实施例1中筛选出的单个生物标志物建立胰腺癌的预测或预测模型,用于区分胰腺癌和非胰腺癌,或者从群体中筛选出胰腺癌患者,或者用于预测个体是否是胰腺癌患者或个体得胰腺癌的可能性。
建立实施例1提供的7种标志物的单一预测性能ROC曲线,通过曲线下面积(AUC)的大小来判断实验结果优劣。AUC为0.5表示单个蛋白质无预测价值;AUC大于0.5说明单个蛋白质具有预测价值;AUC越大,说明单个蛋白质的预测价值越高,结果如表5和图2所示。
表5:ROC分析胰腺癌与正常健康样本各差异蛋白质的ROC值及相关信息
7种生物标志物的浓度变化与是否患胰腺癌的关联性的高低,可以通过图2中的AUC最为直观和明显。AUC值越高,表示该生物标志物越能准确区分胰腺癌人群和非胰腺癌人群。由图2可以看出,7种生物标志物的浓度变化与是否患胰腺癌都具有明显的关联性,单独采用7种生物标志物中的任意一种,其浓度变化用于区分胰腺癌人群和非胰腺癌人群,AUC值都能达到0.5以上,其中DKK3的关联性最高,胰腺癌与健康对照之间AUC值达到0.889,胰腺癌与慢性胰腺炎之间AUC值达到0.825;其次分别为THBS2、PNLIP、Reg3A,AUC值均在0.7以上。
实施例3
在得到7种生物标志物后,本申请提供的一种用于胰腺癌检测的试剂或试剂盒,试剂或试剂盒包括用于检测生物标志物在血清样本中的浓度值的检测试剂;其中,生物标志物选自标志物集合中至少一种标志物,标志物集合包括:DKK3、PNLIP、SRSF1、SRSF4。
具体的,标志物集合还包括DKK1、Reg3A、THBS2中的至少一种和标志物集合DKK3、PNLIP、SRSF1以及SRSF4中至少一种的组合。
具体的,DKK1为Dickkopf相关蛋白1,Dickkopf相关蛋白1的uniprot数据库编号为O94907 的蛋白或者氨基酸序列;DKK3为Dickkopf相关蛋白3,Dickkopf相关蛋白3的uniprot数据库编号为Q9UBP4的蛋白或者氨基酸序列;PNLIP为胰三酰甘油脂肪酶,胰三酰甘油脂肪酶的uniprot数据库编号为P16233的蛋白或者氨基酸序列;Reg3A为再生胰岛衍生蛋白,再生胰岛衍生蛋白的uniprot数据库编号为Q06141的蛋白或者氨基酸序列;SRSF1为丝氨酸/精氨酸丰富剪接因子1,丝氨酸/精氨酸丰富剪接因子1的uniprot数据库编号为Q07955的蛋白或者氨基酸序列;SRSF4为丝氨酸/精氨酸丰富剪接因子4,丝氨酸/精氨酸丰富剪接因子4的uniprot数据库编号为Q08170的蛋白或者氨基酸序列;THBS2血小板反应蛋白2,血小板反应蛋白2的uniprot数据库编号为P35442的蛋白或者氨基酸序列。
具体的,检测试剂包括免疫检测试剂、基因测序试剂、基因特异性引物、基因特异性探针中的任意一种;免疫检测试剂包括能够特异结合或者捕获所述生物标志物的抗体。
具体的,检测试剂用于检测个体的检测样品中生物标志物的有无或相对丰度或浓度。
具体的,检测样品为个体的组织、血液、尿液、唾液、汗液或粪便中的任意一种。
实施例4
本实施例提供一种实现用于胰腺癌检测的系统,系统包括:
数据分析模块;其中,
数据分析模块,用于检测生物标志物在血清样本中的浓度值。
在本申请实施例中,数据分析模块,还用于根据检测的标志物浓度计算目标对象是否是胰腺癌的预测值,并基于预测值判定目标对象是否是胰腺癌。
所述生物标志物选自DKK3、PNLIP、SRSF1、SRSF4中的至少一种,以及可选的DKK1、Reg3A、THBS2中的至少一种。
利用单一的生物标志物虽然也能区分胰腺癌与非胰腺癌血清样本或进行胰腺癌的预测,但一般来说将多种生物标志物进行组合,其区分或预测的准确性更高。
在本申请实施例中,在根据检测的标志物浓度计算目标对象是否是胰腺癌的预测值时,首先加载预先训练的胰腺癌预测模型;然后将检测的标志物浓度代入预先训练的胰腺癌预测模型中,输出用于预测目标对象是否是胰腺癌的预测值;其中,预先训练的胰腺癌预测模型的胰腺癌预测方程表达式为:
;其中,Y为预测值,i表示第i个生物标志物,m表示生物标志物的个数,/>表示第i个生物标志物的检测值,/>表示第i个生物标志物的系数,b为常数3.82。
其中,预测值单位是μg/mL,生物标志物的个数为7。
在本申请实施例中,胰腺癌预测模型的训练过程如下:采用7种差异蛋白质联合构建胰腺癌预测模型:
需要说明的是,可以预见的,本发明实施例并非穷举,包含表4中7种生物标志物的任意排列组合方式的胰腺癌预测场景都可以应用于本发明。
本实施例对Dickkopf相关蛋白1(DKK1),Dickkopf相关蛋白3(DKK3),胰三酰甘油脂肪酶(PNLIP),血小板反应蛋白2(THBS2),再生胰岛衍生蛋白3-α(Reg3A),丝氨酸/精氨酸丰富剪接因子1(SRSF1),丝氨酸/精氨酸丰富剪接因子4(SRSF4)组成的7种蛋白标志物构建的模型进行研究。此外,模型的构建还可以使用Dickkopf相关蛋白3(DKK3),胰三酰甘油脂肪酶(PNLIP),丝氨酸/精氨酸丰富剪接因子1(SRSF1),丝氨酸/精氨酸丰富剪接因子4(SRSF4)组成的4种蛋白标志物构建。或者使用Dickkopf相关蛋白1(DKK1)、血小板反应蛋白2(THBS2)、再生胰岛衍生蛋白3-α(Reg3A)中的一种或多种,结合Dickkopf相关蛋白3(DKK3)、胰三酰甘油脂肪酶(PNLIP)、丝氨酸/精氨酸丰富剪接因子1(SRSF1)、丝氨酸/精氨酸丰富剪接因子4(SRSF4)四种蛋白的组合进行构建模型。
1、研究对象
采用病例对照研究方法从中国心血管代谢与恶性肿瘤队列研究(ChinaCardiometabolic Disease and Cancer Cohort Study,4C)人群中纳入。纳入标准:年龄≥18周岁,性别不限;胰腺癌病例组:纳入经临床病理确诊为胰腺癌,未接受过抗肿瘤治疗的首诊患者;慢性胰腺炎组:纳入经临床预测为慢性胰腺炎的患者;健康对照组:纳入体检无胰腺部位病变,无其他重大疾病或恶性肿瘤的行为健康人群。考虑胰腺癌部分患者有糖尿病史,纳入部分II型糖尿病患者作为阴性对照。排除标准:进行过放化疗或靶向治疗的;进行过胰腺手术的;同时患有其他肿瘤或自身免疫性疾病的患者。最终纳入基线受试者200例,其中80例胰腺癌、40例胰腺炎和80例健康对照。病例信息如表6所示。
表6:胰腺癌病例及匹配对照的基线特征
2、队列分组
将入组人员按照7:3的比例分为模型组(胰腺癌n=56,胰腺炎n=28,健康对照n=56)和测试组(胰腺癌n=24,胰腺炎n=12,健康对照n=24)。数据信息如表7所示:
表7:队列分组人群信息
3、血清样本的收集
从2021.1-2021.7收集了200例样本,所有纳入研究的志愿者在血清样本采集前均签署了知情同意书。在相同条件下收集研究对象的血液标本,采集后静置60分钟后直接取血清,储存于-80℃冰箱保存备用。
4、实验检测
本实施例对采集到的血清样本进行酶联免疫吸附检测(ELISA),获得血清中Dickkopf相关蛋白1(DKK1),Dickkopf相关蛋白3(DKK3),胰三酰甘油脂肪酶(PNLIP),血小板反应蛋白2 (THBS2),再生胰岛衍生蛋白3-α(Reg3A),丝氨酸/精氨酸丰富剪接因子1(SRSF1),丝氨酸/精氨酸丰富剪接因子4(SRSF4)7种蛋白标志物的浓度。
5、实验数据统计分析
Shapiro Wilk的测试用于评估正态分布,并且使用非参数检验Wilcoxon测试分别分析模型组和测试组中胰腺癌患者和健康对照之间的血液标志物浓度的差异。在模型组中,采用多种机器学习方法相结合的方法构建7种胰腺癌标志物的联合预测模型。使用预测概率值以95%置信区间(CI)估计接收器操作员特征(ROC)曲线下面积(AUC),以评估多变量预测模型的辨别能力。使用测试组,计算Youden指数(YI)以确定用于区分胰腺癌患者与正常对照的预测概率cut-off值。此外,构建并比较了单个标志物和不同亚组的ROC。计算标准描述性统计数据,例如频率,平均值,中位数,阳性预测值(PPV),阴性预测值(NPV)和标准偏差(SD)以描述研究群体的实验结果。使用R3.6.1进行统计学分析,p值小于0.05被认为是统计学上显著的。
6、胰腺癌诊断模型构建步骤
S101,将模型组中样本的Dickkopf相关蛋白1(DKK1),Dickkopf相关蛋白3(DKK3),胰三酰甘油脂肪酶(PNLIP),血小板反应蛋白2(THBS2),再生胰岛衍生蛋白3-α(Reg3A),丝氨酸/精氨酸丰富剪接因子1(SRSF1),丝氨酸/精氨酸丰富剪接因子4(SRSF4)7种蛋白标志物的浓度矩阵作为原始训练数据集;
S102,设定用于构建预测模型的监督分类算法,以及算法的超参数优化过程中网格搜索范围。监督分类算法包含:神经网络、梯度提升、广义线性模型、随机森林、逻辑回归、支持向量机、朴素贝叶斯和混合判别分析8种算法。该步骤中,对每种算法设定模型的超参数优化的网格搜索范围如下表8所示。
表8:8种算法的参数网格搜索范围
S103,根据步骤S102设定的算法和超参数设定范围,选择其中一种算法和对应的超参数组合方式,作为预测模型构建的参数;
S104,将原始数据集按K折交叉验证机制,分割成K个子集。为确保每一折子集中,多数类样本和少数类样本比例与原始数据集相同,需采用分层K折交叉验证(StratifiedK-Folds cross validation)机制来进行数据分割;
S105,根据步骤S104分割得到的K个训练数据子集,选择其中一个子集作为验证集Ddev;
S106,将步骤S105中未选择的训练数据子集合并形成训练数据池Dtrainl;
S107,根据步骤S106得到的训练数据集D.train, 基于所选择的有监督分类算法和超参数构建预测模型;
S108,根据步骤S107得到的预测模型,在验证集D.dev进行评估得到AUC值,并将当前预后预测模型与相应的AUC值存储在预测模型池Pool中。步骤S108为根据步骤S107得到的预测模型,在当前迭代中确定的验证集上进行评估,并将模型和评估结果都存储到预测模型池中,供以后预测模型选择使用。该步骤中提到的评估,可以是AUC值,也可以是其他合理的对模型性能进行评估的指标;
S109,判断是否每个子集全部做过验证集。步骤S109为判断步骤S104得到的K个子集是否都已作为验证集,进行过模型的训练。如果所有的子集均作为验证集并完成了训练,则执行步骤S110;若有子集并未作为验证集,则执行步骤S105。该步骤确保原始数据集中,每一个样本均做过验证集,提高模型稳定性,防止模型过拟合于某个子集;
S110,将得到预测模型池Pool所有模型的AUC平均值作为本次组合方式模型的最终性能评估值。并将模型参数和最终性能评估AUC值存入最优模型池Pool.best;
S111,判断每种算法和对应的所有超参数组合方式是否全部构建预测模型。步骤S111为判断步骤S102得到所有算法和对应的超参数组合方式是否都进行过预测模型的构建。如果所有组合方式均作完成了模型的构建,则执行步骤S112;若有组合方式未完成模型的构建,则执行步骤S103;
S112,从步骤S111迭代结束后得到的最优模型池Pool.best中,对于每种算法选择AUC值最高的预测模型,存入胰腺癌诊断的候选预测模型集M.set;
S113,从步骤S112获得的模型集M.set,在测试组D.test中进行评估得到AUC值。将AUC值最大的模型作为胰腺癌诊断的最终预测模型。
7、胰腺癌诊断模型参数优化结果
通过上述模型构建步骤执行,我们得到了8种不同算法下最优模型。建模过程中采用10倍交叉验证方法,通过AUC、灵敏度和特异性三个方面对模型进行了性能评估。如表9和图3所示:广义线性(glmnet)算法的AUC性能评估得分均为最大(10倍交叉验证中AUC的中值为0.933)。
表9:不同算法构建模型的性能评估表
基于上述分析结果,选择广义线性(glmnet)算法构建的最优模型作为胰腺癌诊断的最终预测模型,其构建模型的方程为:
其中,Y为预测值,i表示第i个生物标志物,m表示生物标志物的个数(m=7),Xi表示第i个生物标志物的检测值(μg/mL),Ki表示第i个生物标志物的系数,b为常数3.82。
Ki的系数如下表所示:
表10:模型中7种生物标志物的系数
8、胰腺癌诊断模型诊断阈值确定;
以模型组中的预测值绘制ROC曲线,并根据约登(youden)指数值设置最佳诊断截断值为0.393。即当诊断模型预测值≤0.393时,判定待测者为非胰腺癌患者;当模型预测值>0.393时,判定待测者为胰腺癌患者。结果如图4所示:模型在模型组中AUC为0.925,灵敏度为88.7%,特异性为82.5%。
9、胰腺癌诊断模型验证;
以测试组中的预测值绘制ROC曲线,如图5所示,AUC为0.972。并根据约登(youden)指数值设置最佳诊断截断值为0.393。即当诊断模型预测值≤0.393时,认为待测者不为胰腺癌患者;当模型预测值>0.393时,认为待测者为胰腺癌患者。结果如图6所示:模型在测试组中的准确率为91.7%,Kappa值为0.828,灵敏度为88%,特异性为94.3%,阳性预测率为91.7%,阴性预测率为91.7%。
需要说明的是,以测试组中的预测值绘制ROC曲线时,测试组中标志物可以是采用DKK3、PNLIP、SRSF1以及SRSF4中的至少一种标志物,还可以是DKK1、Reg3A、THBS2中的至少一种和DKK3、PNLIP、SRSF1以及SRSF4中的至少一种的组合,也可以是7种生物标志物的组合。
10、胰腺癌诊断模型性能比较;
为了进一步分析研究不同标志物组合所构建胰腺癌诊断模型的诊断价值,本实施例中将基于不同蛋白质组合生物标志物所构建的诊断模型在测试组中进行了比较。结果如图7和表11所示,表12示出了表11中Max AUC Panel的生物标志物的系数。
表11:不同生物标志物合所构建诊断模型的ROC曲线下面积比较
Panel Min. 1st Qu. Median Mean 3rd Qu. Max. Max. Panel
2MP 0.723 0.794 0.871 0.845 0.882 0.912 DKK3+Reg3A
3MP 0.773 0.877 0.897 0.884 0.904 0.931 DKK3+Reg3A+THBS2
4MP 0.803 0.897 0.904 0.903 0.916 0.930 DKK3+Reg3A+SRSF4+THBS2
5MP 0.885 0.909 0.916 0.914 0.924 0.930 DKK3+Reg3A+SRSF1+SRSF4+THBS2
6MP 0.904 0.917 0.922 0.919 0.922 0.930 DKK1+DKK3+Reg3A+SRSF1+SRSF4+THBS2
7MP 0.933 0.933 0.933 0.933 0.933 0.933 DKK1+DKK3+PNLIP+Reg3A+SRSF1+SRSF4+THBS2
表中2MP、3MP、4MP、5MP、6MP和7MP分别表示使用任意2个、3个、4个、5个、6个和7个标志物构建模型。Min.、1st Qu.、Median、Mean、3rd Qu.和Max. 分别表示特定组合模型AUC的最小值、25%分位数、中位数、平均值、75%分位数和最大值。Max. Panel特定组合模型下AUC最大的组合形式。
表12: Max AUC Panel构建诊断模型的生物标志物的系数
/>
理论上标志物越多可以给疾病诊断提供的信息越多。构建模型的过程就是解释每个标志物在疾病诊断中的作用。模型对部分标志物的解释可能存在偏差,在测试集中反而会降低模型性能。故需要优化模型参数提升标志物的解释能力,同时也需要排除那些容易对模型产生干扰的标志物。这个过程需要通过排列组合方式去找到最优的组合形式。
如表11、表12和图7可验证,当生物标志物所包含蛋白质的数量增加时,所构建模型的平均AUC值不断增大,但具体模型的诊断价值则出现更多的不可预见性,比如,参见表11中的Max.组数据,随着生物标志物所包含蛋白质数量的增加,所构建模型的AUC值出现了先增大再变小的变化趋势,而Min.组、1st Qu.组、Median组、Mean组和3rd Qu.模型的AUC值则随着生物标志物中蛋白质数量的变化表现出了其他变化趋势。此外,表11也从一个侧面验证了,当生物标志物中所包含的蛋白质数量相同时,采用不同组合的蛋白质也将导致所构建胰腺癌诊断模型的诊断价值不同。
此外本实施例中将基于本发明胰腺癌诊断模型的生物标志物性能与传统标志物(CA19-9、CA242和CA50)和其组合(3MP’,包括CA50、CA242和CA19-9),在测试组中进行了比较,如表13所示。部分结果如图8所示:
表13:胰腺癌诊断模型下本发明的生物标志物与传统标志物及其组合的ROC曲线下面积比较
其中,7MP表示DKK1、DKK3、PNLIP、Reg3A、SRSF1、SRSF4、THBS2的7种生物标志物的组合。如图8和表13可证实,采用AUC差异显著性检验方法DeLong's test结果表明胰腺癌诊断模型诊断价值均显著(p<0.05)高于传统标志物或传统标志物组合模型的诊断价值。
在本申请实施例中,在基于预测值判定目标对象是否是胰腺癌时,当预测值小于等于预设阈值时,判定目标对象不是胰腺癌患者;或者,当预测值大于预设阈值时,判定目标对象是胰腺癌患者;其中,预设阈值为0.393。例如,当预测值Y≤0.393时,认为待测者不为胰腺癌患者;当预测值Y>0.393时,认为待测者为胰腺癌患者。
在本申请实施例中,的系数如下表所示:
在本申请实施例中,按照以下步骤生成生物标志物,首先获取健康组和胰腺癌组两组血液样品;然后采用LC-MS/MS超高效液相色谱-串联质谱联用策略分析健康组和胰腺癌组两组血液样品,得到第一分析结果和第二分析结果;其次根据第一分析结果和第二分析结果,并结合正交偏最小二乘法判别在健康组和胰腺癌组间存在差异的蛋白质,得到与胰腺癌关联的蛋白质;最后将与胰腺癌关联的蛋白质作为生物标志物。
具体的,预测值采用相对丰度进行表示,相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。例如某个生物标志物在对照样品(未患胰腺癌的个体)里测出的平均峰面积是500,在胰腺癌样品里测出的平均峰面积是3000,那么就认为该生物标志物在胰腺癌样本中的丰度是对照样本中的6倍。
进一步地,检测样本中的标志物,为检测个体样本中生物标志物的有无或相对丰度或浓度。
在一种可能的应用场景中,系统用于检测样本中的生物标志物,获得检测值;数据输入、输出界面中的输入界面用于输入生物标志物的检测值,经数据分析模块分析检测值后,输出界面用于输出个体是否是胰腺癌的分析结果。
进一步地,本申请提供了如上的系统用于构建预测个体是否是胰腺癌的概率值的检测模型的用途。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,用于胰腺癌检测的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,用于胰腺癌检测的程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种用于胰腺癌检测的系统,其特征在于,所述系统包括:
数据分析模块;其中,
所述数据分析模块,用于分析生物标志物在样本中的检测值,还用于根据生物标志物检测值计算目标对象是否是胰腺癌的预测值,并基于所述预测值判定所述目标对象是否是胰腺癌;
所述生物标志物包括SRSF4
或,包括SRSF4与选自DKK3、PNLIP、SRSF1中的至少一种的组合。
2.根据权利要求1所述的一种用于胰腺癌检测的系统,其特征在于,所述生物标志物包括SRSF4和DKK1、Reg3A、THBS2中的至少一种的组合;
或,
包括SRSF4与选自DKK3、PNLIP、SRSF1中的至少一种和DKK1、Reg3A、THBS2中的至少一种的组合。
3.根据权利要求1所述的一种用于胰腺癌检测的系统,其特征在于,所述生物标志物包括DKK3、Reg3A、THBS2。
4.根据权利要求1所述的一种用于胰腺癌检测的系统,其特征在于,所述生物标志物包括DKK3、PNLIP、SRSF1、SRSF4、DKK1、Reg3A、THBS2。
5.根据权利要求1-4任一所述的一种用于胰腺癌检测的系统,其特征在于,
所述DKK1为Dickkopf相关蛋白1,Dickkopf相关蛋白1的uniprot数据库编号为O94907的蛋白或者氨基酸序列;所述DKK3为Dickkopf相关蛋白3,Dickkopf相关蛋白3的uniprot数据库编号为Q9UBP4的蛋白或者氨基酸序列;所述PNLIP为胰三酰甘油脂肪酶,胰三酰甘油脂肪酶的uniprot数据库编号为P16233的蛋白或者氨基酸序列;所述Reg3A为再生胰岛衍生蛋白,再生胰岛衍生蛋白的uniprot数据库编号为Q06141的蛋白或者氨基酸序列;所述SRSF1为丝氨酸/精氨酸丰富剪接因子1,丝氨酸/精氨酸丰富剪接因子1的uniprot数据库编号为Q07955的蛋白或者氨基酸序列;所述SRSF4为丝氨酸/精氨酸丰富剪接因子4,丝氨酸/精氨酸丰富剪接因子4的uniprot数据库编号为Q08170的蛋白或者氨基酸序列;所述THBS2为血小板反应蛋白2,血小板反应蛋白2的uniprot数据库编号为P35442的蛋白或者氨基酸序列。
6.根据权利要求1-4任一所述的一种用于胰腺癌检测的系统,其特征在于,所述样本为目标对象的组织、血液、尿液、唾液、汗液或粪便中的任意一种。
7.根据权利要求1-4任一所述的一种用于胰腺癌检测的系统,其特征在于,所述分析生物标志物在样本中的检测值,包括:
对所述样本进行酶联免疫吸附检测(ELISA),以获取所述样本中生物标志物的浓度。
8.根据权利要求1-4任一所述的一种用于胰腺癌检测的系统,其特征在于,所述根据生物标志物检测值计算目标对象是否是胰腺癌的预测值,包括:
加载预先训练的胰腺癌预测模型;
将所述生物标志物检测值代入预先训练的胰腺癌预测模型中,输出用于预测目标对象是否是胰腺癌的预测值;其中,
所述预先训练的胰腺癌预测模型的胰腺癌预测方程表达式为:
;其中,
Y为预测值,i表示第i个生物标志物,m表示生物标志物的个数,表示第i个生物标志物的检测值,/>表示第i个生物标志物的系数,b为常数3.82。
9.根据权利要求1-4任一所述的一种用于胰腺癌检测的系统,其特征在于,所述基于所述预测值判定所述目标对象是否是胰腺癌,包括:
当所述预测值小于等于预设阈值时,判定所述目标对象不是胰腺癌患者;或者,当所述预测值大于预设阈值时,判定所述目标对象是胰腺癌患者;其中,
所述预设阈值为0.393。
10.根据权利要求8所述的一种用于胰腺癌检测的系统,其特征在于,所述的系数如下表所示:
11.根据权利要求8所述的一种用于胰腺癌检测的系统,其特征在于,
按照以下步骤生成预先训练的胰腺癌预测模型,包括:
确定用于模型训练的检测样品,并在所述检测样品中获取所述生物标志物检测值,得到原始训练数据集;
针对监督分类算法设定超参数优化过程中网格搜索范围;
根据所述网格搜索范围在所述监督分类算法中选择目标算法及其超参数,得到用于胰腺癌预测模型的构建参数;
根据所述原始训练数据集,分割出训练数据子集以及验证集;
将所述训练数据子集合并为训练数据池;
根据所述训练数据池、目标算法以及超参数,构建胰腺癌预测模型;
根据所述验证集对所述胰腺癌预测模型进行分析,得到AUC值,并将当前预后预测模型与相应的AUC值存储在预测模型池Pool中;
在所述训练数据池中每个子集进行了模型训练的情况下,将所述预测模型池Pool所有模型的AUC平均值作为模型最终性能评估值;
根据所述最终性能评估值,生成预先训练的胰腺癌预测模型。
12.一种用于检测生物标志物的物质在制备用于胰腺癌检测的试剂或试剂盒中的用途,其特征在于,所述生物标志物包括SRSF4
或,包括SRSF4与选自DKK3、PNLIP、SRSF1中的至少一种的组合。
13.根据权利要求12所述的一种用于检测生物标志物的物质在制备用于胰腺癌检测的试剂或试剂盒中的用途,其特征在于,所述生物标志物包括SRSF4和DKK1、Reg3A、THBS2中的至少一种的组合;
或,
包括SRSF4与选自DKK3、PNLIP、SRSF1中的至少一种和DKK1、Reg3A、THBS2中的至少一种的组合。
14.根据权利要求12或13所述的一种用于检测生物标志物的物质在制备用于胰腺癌检测的试剂或试剂盒中的用途,其特征在于,所述物质用于检测个体的检测样品中生物标志物的有无或相对丰度或浓度。
15.根据权利要求14所述的一种用于检测生物标志物的物质在制备用于胰腺癌检测的试剂或试剂盒中的用途,其特征在于,所述物质包括免疫检测试剂、基因测序试剂、基因特异性引物、基因特异性探针中的任意一种;所述免疫检测试剂包括能够特异结合或者捕获所述生物标志物的抗体。
CN202310905887.8A 2023-07-24 2023-07-24 一种用于胰腺癌检测的系统及其试剂或试剂盒 Active CN116626297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310905887.8A CN116626297B (zh) 2023-07-24 2023-07-24 一种用于胰腺癌检测的系统及其试剂或试剂盒

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310905887.8A CN116626297B (zh) 2023-07-24 2023-07-24 一种用于胰腺癌检测的系统及其试剂或试剂盒

Publications (2)

Publication Number Publication Date
CN116626297A CN116626297A (zh) 2023-08-22
CN116626297B true CN116626297B (zh) 2023-10-27

Family

ID=87642179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310905887.8A Active CN116626297B (zh) 2023-07-24 2023-07-24 一种用于胰腺癌检测的系统及其试剂或试剂盒

Country Status (1)

Country Link
CN (1) CN116626297B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117169504B (zh) * 2023-08-29 2024-06-07 杭州广科安德生物科技有限公司 用于胃癌相关参数检测的生物标志物及相关预测系统及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130116433A (ko) * 2012-03-19 2013-10-24 서울대학교산학협력단 췌장암 진단용 마커 및 이의 용도
CN109239210A (zh) * 2018-09-10 2019-01-18 哈尔滨工业大学 一种胰腺导管腺癌标志物及其筛选方法
CN111693621A (zh) * 2020-05-29 2020-09-22 中国医学科学院肿瘤医院 一种基于血清肽的胰腺癌诊断模型的建立方法及其应用
CN115575636A (zh) * 2022-11-22 2023-01-06 杭州广科安德生物科技有限公司 一种用于肺癌检测的生物标志物及其系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017004153A1 (en) * 2015-06-29 2017-01-05 The Broad Institute Inc. Tumor and microenvironment gene expression, compositions of matter and methods of use thereof
WO2019010429A1 (en) * 2017-07-07 2019-01-10 The Trustees Of The University Of Pennsylvania METHODS OF DIAGNOSING PANCREATIC CANCER
EP4045912A1 (en) * 2019-10-18 2022-08-24 Reccan Diagnostics AB Apparatuses and methods for detection of pancreatic cancer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130116433A (ko) * 2012-03-19 2013-10-24 서울대학교산학협력단 췌장암 진단용 마커 및 이의 용도
CN109239210A (zh) * 2018-09-10 2019-01-18 哈尔滨工业大学 一种胰腺导管腺癌标志物及其筛选方法
CN111693621A (zh) * 2020-05-29 2020-09-22 中国医学科学院肿瘤医院 一种基于血清肽的胰腺癌诊断模型的建立方法及其应用
CN115575636A (zh) * 2022-11-22 2023-01-06 杭州广科安德生物科技有限公司 一种用于肺癌检测的生物标志物及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Splice variants as novel targets in pancreatic ductal adenocarcinoma;Jun Wang et al.;scientific reports;全文 *
SR蛋白家族对肿瘤发生发展影响的研究进展;李梦仙;俞建昆;温艳萍;吴翰欣;高凌;刘晓晓;邰文琳;;中国医学创新(第15期);全文 *

Also Published As

Publication number Publication date
CN116626297A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US20230393150A1 (en) Methods and algorithms for aiding in the detection of cancer
CN115575636B (zh) 一种用于肺癌检测的生物标志物及其系统
Yildiz et al. Diagnostic accuracy of MALDI mass spectrometric analysis of unfractionated serum in lung cancer
Kim et al. Evaluation of glycomic profiling as a diagnostic biomarker for epithelial ovarian cancer
US8772038B2 (en) Detection of saliva proteins modulated secondary to ductal carcinoma in situ of the breast
CA3053116A1 (en) Methods for the detection and treatment of lung cancer
US20140274794A1 (en) Methods and Compositions for Diagnosis of Ovarian Cancer
CN116626297B (zh) 一种用于胰腺癌检测的系统及其试剂或试剂盒
CN115798712B (zh) 一种诊断待测者是否是乳腺癌的系统以及生物标志物
Daily et al. Using tears as a non-invasive source for early detection of breast cancer
Hocker et al. Serum discrimination of early-stage lung cancer patients using electrospray-ionization mass spectrometry
Suh et al. Next-generation proteomics-based discovery, verification, and validation of urine biomarkers for bladder cancer diagnosis
He et al. Serum soluble CD14 is a potential prognostic indicator of recurrence of human breast invasive ductal carcinoma with Her2-enriched subtype
Gamez-Pozo et al. MALDI profiling of human lung cancer subtypes
Kasahara et al. A large‐scale targeted proteomics of plasma extracellular vesicles shows utility for prognosis prediction subtyping in colorectal cancer
Beer et al. Identification of multiple novel protein biomarkers shed by human serous ovarian tumors into the blood of immunocompromised mice and verified in patient sera
KR102402428B1 (ko) 난소암 진단용 다중 바이오 마커 및 이의 용도
Abdulwahab et al. Association of TATA box-binding protein-associated factor RNA polymerase I subunit C (TAF1C) with T2DM
CN116148482A (zh) 用于乳腺癌患者鉴定的设备及其制备用途
Li et al. Analysis of the raw serum peptidomic pattern in glioma patients
WO2022192857A9 (en) Biomarkers for determining an immuno-oncology response
CN116519954B (zh) 一种结直肠癌检测模型构建方法、系统及生物标志物
AU2004239419A1 (en) Serum protein profiling for the diagnosis of epithelial cancers
CN117169504B (zh) 用于胃癌相关参数检测的生物标志物及相关预测系统及应用
CN116593702B (zh) 一种肺癌的生物标志物以及诊断系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant