CN116087530A

CN116087530A - 用于检测胰腺癌的蛋白组合物、装置、设备和存储介质

Info

Publication number: CN116087530A
Application number: CN202310315892.3A
Authority: CN
Inventors: 崔新; 杨滢; 吕芳; 聂佩瑶; 沈宁; 洪媛媛; 宋小凤; 黄宇; 陈维之; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-05-09
Anticipated expiration: 2043-03-29
Also published as: CN116087530B

Abstract

本申请公开了一种用于检测胰腺癌的蛋白组合物、装置、设备和存储介质，属于医学检测技术领域。该蛋白组合物包括蛋白CA125、CA19‑9、CA50、CEA、NSE和free‑β‑hCG，基于上述蛋白表达水平的胰腺癌风险评估模型可以用于计算患有胰腺癌的概率，该蛋白组合物的表达水平结合本申请提供的胰腺癌风险评估模型，可以有效检测胰腺癌，其AUC值高于使用任意一个单一蛋白标志物以及临床血清标志物CA19‑9和NSE的检测结果。

Description

用于检测胰腺癌的蛋白组合物、装置、设备和存储介质

技术领域

本申请属于医学检测技术领域，具体涉及用于检测胰腺癌的蛋白组合物、装置、设备和存储介质。

背景技术

在全球范围内，胰腺癌的标化发病率和死亡率（每10万人）分别为3.9和3.7，其发病率几乎等于其死亡率，是世界范围内致死性极高的恶性肿瘤之一。胰腺癌的5年生存率不到8%，可行根治性手术的胰腺癌患者较未行手术的胰腺癌患者预后有显著差异，但单纯的手术治疗仅能将胰腺癌5年生存率提高至10%左右。胰腺癌预后不佳的原因有多种，例如大多数患者在确诊时已经处于晚期；手术后复发、转移的概率仍然很高。为了提升胰腺癌患者生存率，需要更好地辅助胰腺癌患者进行早期筛查、监测治疗以及复发检测。

随着医学研究的不断深入，生物标志物逐渐成为临床上可辅助肿瘤诊断的重要参考指标。目前，蛋白标志物CA19-9是临床上最常见和应用最广泛的用于胰腺癌诊断、预后监测的肿瘤标志物。但是CA19-9作为生物标志物仍然存在一些局限性，例如特异性较差，在Lewis阴性表型中表达量低，以及在患者患有胰腺炎、肝硬化和急性胆管炎等良性疾病时假阳性率增高等。其他常见的蛋白标志物如CEA、TP53等单一蛋白标志物的在敏感性和特异性方面也存在一定的不足。除此之外，另一个重要的限制是检测这些生物标志物需要进行侵入性操作，采集样本比较困难，而且样本还容易受到胆汁、胃液、血液和/或十二指肠等的污染。

因此，寻求在临床上更有效、更灵敏的生物标志物至关重要。

发明内容

1. 要解决的问题

为克服现有技术中胰腺癌诊断及预后监测中使用的生物标志物存在的敏感性和特异性具有局限等问题之一，本申请提供了一种用于检测胰腺癌的蛋白组合物、装置、设备和存储介质，该蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG，同时本申请提供了一种基于上述蛋白表达水平的胰腺癌风险评估模型，利用待测样本中上述蛋白的表达水平及本申请提供的胰腺癌风险评估模型可以计算患有胰腺癌或胰腺癌复发的概率，为进一步诊断患者是否患有胰腺癌提供信息。

2. 技术方案

为了解决上述问题，本申请所采用的技术方案如下：

本申请提供了一种用于检测胰腺癌的蛋白组合物，该蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG，发明人通过对健康人群和胰腺癌患者的蛋白表达水平的分析，发现了上述蛋白组合物中的蛋白表达水平具有显著差异，将该蛋白组合物作为生物标志物，可以用于检测胰腺癌，并可以克服单一生物标志物敏感性、特异性等方面不足的问题。

本申请还提供了上述蛋白组合物在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。

进一步地，上述应用包括基于上述蛋白组合物的胰腺癌风险评估模型，该模型以上述蛋白组合物中各蛋白的表达水平为变量，使用以下Logistics回归方程计算Logit值和P值：

Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50)，其中P为患有胰腺癌的概率，CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据，Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据，由于不同蛋白标志物的定量方法和平台不一致，造成蛋白测量值范围的差异，因此使用Z-score的标准化方法，对数据进行标准化处理。

进一步地，上述应用包括基于上述蛋白组合物的胰腺癌检测的装置，该装置包括如下模块：

数据接收模块，用于接受待测患者的上述蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平；

计算模块，用于计算Logit值和P值，具体包括使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据，使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据，并使用以下方程计算Logit值和P值：

Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50)，其中P为患有胰腺癌的概率，CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据；

结果输出模块，用于输出患有胰腺癌的风险，当P值≥设定阈值时，输出患有胰腺癌的风险高，否则输出患有胰腺癌的风险低。

进一步地，上述基于蛋白组合物的胰腺癌检测的装置还包括：检测模块，用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。

进一步地，上述结果输出模块中，设定的阈值为0.4615。

进一步地，上述应用包括基于上述蛋白组合物的用于胰腺癌检测的电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现胰腺癌的检测方法，所述方法包括如下步骤：

S1：检测患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平；

S2：使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据，使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据，并使用以下方程计算Logit值和P值：

S3：当P值≥设定阈值时，患有胰腺癌的风险高，否则患有胰腺癌的风险低。

进一步地，上述应用包括基于上述蛋白组合物的用于胰腺癌检测的一种计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述胰腺癌的检测方法。

本申请还提供了一种基于上述蛋白组合物的胰腺癌风险评估模型，该模型以上述蛋白组合物中各蛋白的表达水平为变量，蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG，使用以下Logistics回归方程计算Logit值和P值：

本申请还提供了一种基于上述蛋白组合物的胰腺癌检测装置，该装置包括如下模块：

进一步地，上述基于蛋白组合物的胰腺癌检测装置还包括：检测模块，所述检测模块用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。

进一步地，上述结果输出模块中，设定阈值为0.4615。

本申请还提供了一种基于上述蛋白组合物的胰腺癌检测的电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现胰腺癌的风险评估方法，所述风险评估方法包括如下步骤：

进一步地，上述设定阈值为0.4615。

本申请还提供了一种基于上述蛋白组合物的用于胰腺癌检测的计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述胰腺癌的风险评估方法。

本申请还提供了检测生物标志物的表达水平的试剂在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用，生物标志物包括蛋白组合物，具体包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

本申请还提供了一种用于胰腺癌检测的试剂盒，该试剂盒包括检测蛋白组合物中蛋白的表达水平的试剂，蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

进一步地，上述用于胰腺癌检测的试剂盒，还包括上述一种基于上述蛋白组合物的用于胰腺癌检测的装置，和/或上述一种基于上述蛋白组合物的用于胰腺癌检测的计算机存储介质。

本申请还提供了上述检测试剂盒在上述胰腺癌风险评估模型中的应用，用于检测蛋白组合物中蛋白的表达水平，蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

3. 有益效果

本申请与现有技术相比，其有益效果在于：

（1）本申请提供的一种用于检测胰腺癌的蛋白组合物，包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG，该蛋白组合物在健康人群和胰腺癌的患者血清中的表达水平具有显著差异，在胰腺癌患者血清中的水平相对较高，在健康人群血清中的水平相对较低，该蛋白组合物的表达水平结合本申请提供的胰腺癌风险评估模型，可以计算患者患有胰腺癌的概率，其AUC值高于使用任意一个单一蛋白标志物以及临床血清标志物CA19-9和NSE的检测结果，可以有效检测胰腺癌。

（2）本申请提供的一种基于上述蛋白组合物的用于胰腺癌检测装置，该装置接受蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平后；使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据，使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据，并使用本申请提供的Logistics回归方程计算Logit值和P值，输出是否患有胰腺癌的结果，能够实现胰腺癌的快速检测。

附图说明

图1是7种蛋白标志物之间的皮尔逊相关系数。

图2是本申请模型在训练集和独立测试集的AUC值结果。

具体实施方式

下面结合具体实施例对本申请进一步进行描述。

需要说明的是，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等用语，亦仅为便于叙述的明了，而非用以限定可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本申请可实施的范畴。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如本文所使用，术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。

如本文所使用，术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如，“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。

浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，并且应当灵活地解释为不仅包括明确叙述为范围极限的数值，而且还包括涵盖在所述范围内的所有单独的数值或子范围，就如同每个数值和子范围都被明确叙述一样。例如，约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值，而且还包括单独的数字（诸如2、3、4）和子范围（诸如1至3、2至4等）。相同的原理适用于仅叙述一个数值的范围，诸如“小于约4.5”，应当将其解释为包括所有上述的值和范围。此外，无论所描述的范围或特征的广度如何，都应当适用这种解释。

实施例1

本实施例提供用于检测胰腺癌的蛋白组合物的筛选，其筛选过程如下：

针对69例收集自上海交通大学瑞金医院的经过组织病理学诊断确认为胰腺癌的患者（胰腺癌患者不特别区分早期或者晚期）和110例正常人样本，通过常规医院血清检测获得AFP、CA125、CA19-9、CA242、CA50、CEA、CYFRA21-1、NSE、PG I、PG II、free-β-hCG共11个蛋白的表达水平。

从上述样本中随机选取41例胰腺癌样本和80例正常人样本共121例，按照7：3的比例进一步地分为训练集和验证集；剩余的28例胰腺癌样本和30例健康人样本作为独立测试集。其中，训练集和验证集用于蛋白组合的筛选、模型训练和参数搜索，独立测试集用来测试模型训练的结果。

为了避免离群值对建模的影响，对训练集和独立测试集中的离群值（5%和95%）进行Winsorize缩尾处理。此外，由于不同蛋白标志物的定量方法和平台不一致，造成蛋白测量值范围的差异，因此使用Z-score的标准化方法，对数据进行标准化处理。

使用上述训练集包含28例胰腺癌样本和56例健康人样本共84例样本，对上述11个蛋白的测量结果在健康人和胰腺癌样本中进行Mann-Whitney U双侧检验，从中筛选到具有显著差异的7个蛋白CA125、CA19-9、CA242、CA50、CEA、NSE和free-β-hCG（P<0.01，表1）。通过计算各变量之间的皮尔逊相关系数，发现蛋白CA242和CA19-9具有很强的线性关系（皮尔逊相关系数0.9，图1），为了减少线性相关变量导致的预测误差叠加，在后续的建模过程中去掉CA242。最终确定蛋白组合物为蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

表1 蛋白标志物的Mann-Whitney U 双侧检验统计量和P值

实施例2

本实施例提供基于上述蛋白组合物的胰腺癌风险评估模型的构建及验证，该模型可以计算患有胰腺癌的概率。构建过程如下：

本实施例1中的训练集中使用5折交叉验证，依次将数据集划分成5份，随机选择其中的4份作为训练集用于构建分类模型，剩余的1份作为验证集数据进行验证，重复上面的过程，得到整个训练集的预测结果并绘制ROC曲线。根据验证集数据上的AUC值，通过随机搜索的方式进行超参数搜索。

使用实施例1筛选和标准化处理后6个蛋白的表达水平数据，使用ElasticNetLogistic Regression模型进行建模，超参数通过交叉验证的方式进行确定。正则化方式为L1正则和L2正则，其中L1正则占比为0.8，L2正则占比为0.2，损失函数的优化使用SAGA算法近似求解。最终的回归系数使用5折交叉验证训练模型得到的回归系数均值（表2），得到的回归模型，即胰腺癌风险评估模型为：

Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50)，其中CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据，Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据。并根据训练集数据中ROC曲线选择约登指数最大处对应的cutoff值作为分类阈值（0.4615）。训练集cutoff值对应的特异度和灵敏度分别为98.48%和90.1%，独立测试集cutoff值对应的特异度和灵敏度分别为96.57%和93.57%。

表2 蛋白标志物组合在训练集5折交叉验证训练上的回归系数

将上述胰腺癌风险评估模型用于验证集和独立测试集，使用标准化处理后的蛋白表达水平，并根据回归方程计算Logit值和P值，当P值≥0.4615时，输出患有胰腺癌，否则输出则未患胰腺癌，其AUC值为0.9848和0.9583（图2）。

结果表明，使用CA125、CA19-9、CA50、CEA、NSE和free-β-hCG六种蛋白组合物针对胰腺癌具有良好的检测效果。

实施例3

本实施例提供一种基于上述蛋白组合物的用于胰腺癌检测装置，该装置包括检测模块、数据接收模块、计算模块和结果输出模块，其中：

检测模块用于检测待测患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平；

数据接收模块用于接受检测模块检测的蛋白组合物中CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平；

计算模块使用Z-score标准化方法标准化处理CEA、NSE、CA50蛋白表达水平的数据，使用Z-score标准化方法标准化处理free-β-hCG、CA125、CA19-9蛋白表达水平取对数后的数据，并使用以下方程计算Logit值和P值：

Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50)，其中CEA、NSE、Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)、CA50是蛋白表达水平或蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据；

结果输出模块用于输出是否患有胰腺癌，当P值≥0.4615时，输出患有胰腺癌，否则输出未患胰腺癌。

Claims

1.一种用于胰腺癌检测的蛋白组合物，其特征在于，所述蛋白组合物包括蛋白CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

2.权利要求1所述的蛋白组合物在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。

3.检测权利要求1所述的蛋白组合物中各蛋白表达水平的试剂在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。

4.一种胰腺癌风险评估模型，其特征在于，所述风险评估模型以权利要求1中所述的蛋白组合物中各蛋白的表达水平为变量，使用以下Logistics回归方程计算Logit值和P值：

Logit(P)=Ln(P/1-P)=-0.109557+1.236235×Ln(CEA)+5.037409×(NSE)+1.656346×Ln(free-β-hCG)+1.314567×Ln(CA125)+2.158754×Ln(CA19-9)+0.40032×(CA50)，其中：P为患有胰腺癌的概率，CEA、NSE、CA50是蛋白表达水平使用Z-score标准化方法标准化处理后的数据，Ln(free-β-hCG)、Ln(CA125)、Ln(CA19-9)是蛋白表达水平取对数后使用Z-score标准化方法标准化处理后的数据。

5.一种用于胰腺癌检测的装置，其特征在于，所述装置包括如下模块：

数据接收模块，用于接受待测患者的蛋白组合物CA125、CA19-9、CA50、CEA、NSE和free-β-hCG中各蛋白的表达水平；

6.根据权利要求5所述的一种用于胰腺癌检测的装置，其特征在于，所述装置还包括：检测模块，所述检测模块用于检测CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平。

7.根据权利要求5或6所述的一种用于胰腺癌检测的装置，其特征在于，所述设定阈值为0.4615。

8.一种用于胰腺癌检测的电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现胰腺癌的风险评估方法，所述风险评估方法包括如下步骤：

S1：接受患者CA125、CA19-9、CA50、CEA、NSE和free-β-hCG各蛋白的表达水平；

9.一种用于胰腺癌检测的计算机存储介质，其特征在于，其上存储有计算机程序，其中，程序被处理器执行时实现胰腺癌的风险评估方法，所述风险评估方法包括如下步骤：

10.一种用于胰腺癌检测的试剂盒，其特征在于，所述试剂盒包括检测蛋白组合物CA125、CA19-9、CA50、CEA、NSE和free-β-hCG的表达水平的试剂，还包括权利要求8所述的一种用于胰腺癌检测的电子设备和/或权利要求9所述的一种用于胰腺癌检测的计算机存储介质。