CN116287279B

CN116287279B - 用于检测胰腺癌的生物标志物及其应用

Info

Publication number: CN116287279B
Application number: CN202310595127.1A
Authority: CN
Inventors: 崔新; 杨滢; 吕芳; 聂佩瑶; 沈宁; 洪媛媛; 宋小凤; 黄宇; 陈维之; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-04
Anticipated expiration: 2043-05-25
Also published as: CN116287279A

Abstract

本申请公开了一种用于检测胰腺癌的生物标志物及其应用，属于医学检测技术领域。该生物标志物是肿瘤特异甲基化连锁区域组合中至少一个区域，该甲基化连锁区域的甲基化结果，如该区域内甲基化片段占比，即覆盖甲基化连锁区域中发生甲基化的片段数与覆盖该区域所有片段数的比例，在健康人群和胰腺癌的患者中具有显著差异，该生物标志物结合本申请提供的胰腺癌风险评估模型，可以有效检测胰腺癌。还可以将甲基化连锁区域组合中至少一个区域中甲基化结果与蛋白组合物CA19‑9和NSE联合作为生物标志物，可以有效检测胰腺癌。

Description

用于检测胰腺癌的生物标志物及其应用

技术领域

本申请属于医学检测技术领域，具体涉及用于检测胰腺癌的生物标志物及其应用。

背景技术

胰腺癌预后不佳的原因有多种，例如大多数患者在确诊时已经处于晚期；手术后复发、转移的概率仍然很高。为了提升胰腺癌患者的生存率，需要更好地辅助胰腺癌患者进行早期筛查、监测治疗以及复发检测。

随着医学研究的不断深入，肿瘤标志物逐渐成为临床上可辅助肿瘤诊断的重要参考指标。目前，蛋白标志物CA19-9是临床上最常见和应用最广泛的用于胰腺癌诊断、预后监测的肿瘤标志物。但是蛋白CA19-9作为肿瘤标志物仍然存在一些局限性，例如特异性较差，在Lewis阴性表型中表达量低，以及在患者患有胰腺炎、肝硬化和急性胆管炎等良性疾病时假阳性率增高等。

DNA甲基化在癌症的发生发展过程中发挥重要作用，DNA甲基化经常表现在肿瘤发生的早期，通过改变染色质结构，最终导致抑癌基因沉默或原癌基因的激活。近十年来，许多学者对循环游离DNA（cfDNA）的甲基化特征进行了大量的研究，发现cfDNA携带甲基化标记物，能够识别组织特异性细胞死亡，并且比单个DNA突变具有更广泛的信息、更高的敏感性和特异性。此外，血检样本收集是微创的，为更灵活和充分的预后监测提供了可能。

目前尚未发现利用cfDNA甲基化信息进行胰腺癌早期筛查、监测治疗以及复发检测的应用。

发明内容

1. 发明目的

本申请的目的在于提供用于检测胰腺癌的生物标志物及其应用，生物标志物包括甲基化生物标志物，或包括甲基化生物标志物与蛋白生物标志物的组合。具体为发明人通过比较、分析并筛选了胰腺癌患者和健康个体中有差异的甲基化连锁区域（methylation-correlated block，MCB），即肿瘤特异甲基化连锁区域，肿瘤特异甲基化连锁区域中的甲基化片段占比（Methylated Fragment Ratio，MFR）在胰腺癌患者和健康个体中有显著差异，因此肿瘤特异甲基化连锁区域可以作为甲基化生物标志物，该生物标志物可以用于构建胰腺癌风险评估模型并预测胰腺癌的患病风险。

2. 技术方案

为了解决上述问题，本申请所采用的技术方案如下：

本申请提供了一种用于检测胰腺癌的生物标志物，该生物标志物为甲基化生物标志物，包括表1中甲基化连锁区域（methylation-correlated block，MCB）的一种或任意组合，上述甲基化连锁区域内的甲基化片段占比（Methylated Fragment Ratio，MFR），即甲基化测序数据中，覆盖甲基化连锁区域的发生甲基化的片段数与覆盖该甲基化连锁区域的所有片段数的比例，在胰腺癌患者和健康人群中存在显著差异，通过上述差异及预设的模型可以用于检测胰腺癌。需要特别说明的是，表1中甲基化连锁区域内的甲基化情况在胰腺癌患者和健康个体中有显著差异，在理想状态下，同一测序片段在甲基化连锁区域内的甲基化情况应当一致，但是在实践中发现，同一测序片段在甲基化连锁区域内的甲基化情况并非完全一致，可能是测序或者实验中引入的错配造成的误差，因此本申请中定义甲基化片段占比来描述甲基化连锁区域内的甲基化情况，使得甲基化连锁区域内的甲基化结果的描述更加准确。

表1 甲基化连锁区域（methylation-correlated block，MCB）

进一步地，上述一种用于检测胰腺癌的生物标志物，包括表1中全部甲基化连锁区域（methylation-correlated block，MCB）。

进一步地，上述一种用于检测胰腺癌的生物标志物，还包括蛋白生物标志物，所述蛋白生物标志物为蛋白组合物，包括蛋白CA19-9和NSE。

本申请还提供了上述用于检测胰腺癌的生物标志物在构建胰腺癌风险评估模型、制备胰腺癌检测产品中的应用。

进一步地，上述应用包括基于甲基化生物标志物的胰腺癌风险评估模型，该模型以甲基化连锁区域内的甲基化片段占比（Methylated Fragment Ratio，MFR）为输入变量，使用以下方程计算风险得分：

风险得分=-3.30817249+ω1×R1+ω2×R2+…+ω36×R36，其中，ω1-ω36为表1中36个甲基化差异区域对应的回归系数，R1-R36为对应区域经过标准化处理的MFR值。

进一步地，上述经过标准化处理的MFR值是使用Z-score方法进行标准化处理后的MFR值。

进一步地，上述应用包括基于甲基化生物标志物和蛋白生物标志物的胰腺癌风险评估模型，该模型是基于阳性样本和对照样本的甲基化连锁区域内的MFR值和蛋白生物标志物的蛋白CA19-9和NSE的表达量，使用随机森林分类构建的模型。

进一步地，上述应用包括一种胰腺癌预测装置，根据所提供的甲基化测序数据预测患有胰腺癌的概率，该装置包括：

数据接收模块，其被配置为用于接收肿瘤组织、肿瘤血细胞或血浆的甲基化测序数据；

甲基化分析模块，其被配置为用于根据数据接收模块接收的甲基化测序数据，利用第一检测软件进行分析得到甲基化位点信息，进一步从上述胰腺癌特异甲基化连锁区域中提取区域内的MFR值；

标准化模块，其与甲基化分析模块相连，对MFR值使用Z-score方法进行标准化处理；

预测模块，其被配置为用于基于标准化模块处理后的数据和胰腺癌风险评估模型计算风险得分，预测患有胰腺癌的概率。

进一步地，上述数据接收模块还包括蛋白数据接收模块，其被配置为用于接收肿瘤组织、肿瘤血细胞或血浆中蛋白CA19-9和NSE的表达量；标准化模块还包括对蛋白表达量数据使用Z-score方法进行标准化处理；预测模块还包括基于所提供的标准化后的蛋白表达量数据和MFR值使用预训练的模型预测患有胰腺癌的概率。

本申请还提供了一种基于上述甲基化生物标志物的胰腺癌风险评估模型，该模型以甲基化连锁区域内的甲基化片段占比（Methylated Fragment Ratio，MFR）为输入变量，使用以下方程计算风险得分：

风险得分=-3.30817249+ω1×R1+ω2×R2+…+ω36×R36，其中，ω1-ω36为表1中36个甲基化差异区域对应的回归系数，R1-R36为对应区域经过使用Z-score方法标准化处理的MFR值。

本申请还提供了上述一种胰腺癌风险评估模型在制备胰腺癌检测产品中的应用。

本申请还提供了一种胰腺癌预测装置，根据所提供的甲基化测序数据预测患有胰腺癌的概率，该装置包括：

本申请还提供了一种基于上述生物标志物的胰腺癌检测的电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现胰腺癌的检测方法。

本申请还提供了一种基于上述生物标志物的用于胰腺癌检测的计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述胰腺癌的检测方法。

3. 有益效果

本申请与现有技术相比，其有益效果在于：

（1）本申请提供的一种用于检测胰腺癌的生物标志物及其应用，该生物标志物是胰腺癌特异甲基化连锁区域组合中至少一个区域，肿瘤特异甲基化连锁区域的甲基化结果，即该区域内甲基化片段占比（MFR），甲基化片段占比是指覆盖MCB区域中发生甲基化的片段数与覆盖该区域所有片段数的比例，用于描述该区域的甲基化情况，可以避免测序或实验中引入的误差，对健康人群和胰腺癌的患者的上述MCB进行分析，胰腺癌患者的MCB区域的MFR值较高；正常人的MCB区域的MFR值较低，具有显著差异，该生物标志物结合本申请提供的胰腺癌风险评估模型，可以有效检测胰腺癌。

（2）本申请提供的一种用于检测胰腺癌的生物标志物，是将甲基化连锁区域组合中至少一个区域中甲基化结果（甲基化片段占比）与蛋白组合物CA19-9和NSE联合作为生物标志物，可以有效检测胰腺癌。

附图说明

图1为甲基化数据分析与肿瘤（胰腺癌）特异甲基化连锁区域筛选流程；

图2为本申请实施例2中使用筛选得到的甲基化区域进行建模在训练集和测试集中的AUC结果；

图3为7种蛋白标志物之间的皮尔逊相关系数；

图4为本申请实施例5中所训练模型在训练集和测试集的AUC值结果；

图5为本申请提供的胰腺癌预测装置模块说明。

具体实施方式

下面结合具体实施例对本发明进一步进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例中未注明具体条件者，按照常规条件或制造商提供的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如本文所使用，术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。

如本文所使用，术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如，“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。

浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，并且应当灵活地解释为不仅包括明确叙述为范围极限的数值，而且还包括涵盖在所述范围内的所有单独的数值或子范围，就如同每个数值和子范围都被明确叙述一样。例如，约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值，而且还包括单独的数字（诸如2、3、4）和子范围（诸如1至3、2至4等）。相同的原理适用于仅叙述一个数值的范围，诸如“小于约4.5”，应当将其解释为包括所有上述的值和范围。此外，无论所描述的范围或特征的广度如何，都应当适用这种解释。

任何方法或过程权利要求中所述的任何步骤可以以任何顺序执行，并且不限于权利要求中提出的顺序。

实施例1

本实施例提供胰腺癌特异甲基化连锁区域的筛选，包括收集来自上海瑞金医院的110例胰腺癌组织样本和500个基线健康人血浆样本，获得血浆样本的全基因组测序数据，按照图1所示的筛选流程进行筛选，甲基化连锁区域的划分可参考公开号为CN112951418A的中国发明专利，具体包括如下步骤：

步骤S001：下机数据处理

调用Trimmomatic-0.36去除reads的接头，然后去除序列两端碱基质量低于20的碱基，生成去除接头的FASTQ文件；

调用Bismark-v0.19.0将去接头后的序列比对到hg19人类参考基因组序列，生成初始BAM文件；为了减少PCR扩增产生的重复序列，调用Bismark-v0.19.0的deduplicate模块，对初始BAM文件进行去重处理，生成去重后的BAM文件；调用SAMtools-1.3 view对去除重合部分的序列的BAM文件的比对质量进行过滤，去除比对质量低于20的序列；完成该步骤后，统计每条序列中非甲基化位点中C碱基的转化率，剔除转化率低于95%的序列；

最后使用SAMtools-1.3 sort对去重和过滤以后的序列进行排序，得到按坐标排序的BAM文件。

步骤S002：甲基化位点提取

本实施例中使用110例胰腺癌组织样本，调用Bis-SNP-0.82.2的BisμLfiteGenotyper模块，检测样本的SNP位点和CpG位点，生成SNP和CpG的原始VCF文件。

步骤S003：划分甲基化连锁区域

使用步骤S002生成的VCF文件，从BAM中提取对应位点的beta值信息和覆盖度信息，生成肿瘤组织位点beta值矩阵和肿瘤组织覆盖度矩阵；

根据肿瘤组织样本的beta值和覆盖度信息，将基因组坐标上100 bp以内的，甲基化水平的皮尔逊相关系数大于等于0.95的位点合并为甲基化连锁区域；使用110例胰腺癌组织样本，共计算得到6045个甲基化连锁区域。

步骤S004：肿瘤特异甲基化连锁区域筛选

使用110例胰腺癌样本和500例基线健康人血浆样本，用来筛选可用于MFR值计算的胰腺癌特异甲基化连锁区域；

首先根据胰腺癌组织样本划定的甲基化连锁区域，对110例胰腺癌样本和500例基线健康人血浆样本分别计算甲基化连锁区域内的MFR值矩阵；

对每个甲基化连锁区域，使用500例基线健康人血浆样本在该区域的MFR值和110例胰腺癌组织样本该区域的MFR值进行Wilcoxon Rank Sum Test；使用Bonferroni方法对P值进行校正，根据校正后的P值对甲基化连锁区域进行筛选（P<0.01）；本实施例中共筛选到3834个甲基化连锁区域；

将500例基线健康人血浆样本和110胰腺癌样本合并后随机打乱顺序，使用十折交叉验证的方式将数据随机分为十组，每次使用其中的九组，使用Lasso回归对筛选得到的3834个甲基化连锁区域的MFR值进行建模，剩余的一组用于参数搜索；在Lasso回归训练过程中，和目标变量相关性小的变量的系数会在迭代中减小为0，根据Lasso回归训练后得到的系数，选择其中系数不为0的甲基化区域；统计交叉验证10次建模的回归系数，计算每个甲基化区域在10次训练中回归系数不为0的次数，选择10次训练中回归系数都不为0的共36个甲基化连锁区域作为肿瘤特异甲基化连锁区域进行后续分析（表2）。

表2 甲基化连锁区域（MCB）

实施例2

本实施例提供基于实施例1中的肿瘤特异甲基化连锁区域的胰腺癌预测模型的构建及验证，具体包括：

本实施例中使用41例胰腺癌样本和80例健康人血浆样本，测序后计算实施例1中筛选的36个肿瘤特异甲基化连锁区域内的MFR值。

本实施例中，在训练集中使用5折交叉验证，依次将数据集划分成5份，随机选择其中的4份作为训练集用于构建分类模型，剩余的1份作为验证集数据进行验证，重复上面的过程，得到整个训练集的预测结果并绘制ROC曲线。根据验证集数据上的AUC值，通过随机搜索的方式进行超参数搜索。

使用ElasticNet Logistic Regression模型对上述样本的36个甲基化连锁区域的MFR值进行建模，参数搜索和性能验证通过交叉验证的方式进行确定，正则化方式为L1正则和L2正则，其中L1正则占比为0.35，L2正则占比为0.65，损失函数的优化使用SAGA算法近似求解，最终的回归系数使用5折交叉验证训练模型得到的回归系数均值（表3），得到的回归模型为：风险得分=-3.30817249+ω1×R1+ω2×R2+…+ω36×R36，其中，ω1-ω36为表2中36个甲基化差异区域对应的回归系数，R1-R36为对应区域经过标准化处理的MFR值。根据训练集数据中ROC曲线选择约登指数最大处对应的cutoff值作为分类阈值（0.3917）。训练集cutoff值对应的特异度和灵敏度分别为86.18%和77.78%，测试集cutoff值对应的特异度和灵敏度分别为82.78%和77.78%。结果表明，使用上述36个甲基化连锁区域的MFR值对是否患有胰腺癌进行较为准确的预测，在交叉验证的训练集和测试集上的AUC值分别为0.8970和0.8732（图2）。

表3 36个甲基化连锁区域MFR使用Logistics回归建模的回归系数

在预测未知样本时，从经过质控和比对的BAM文件中提取甲基化差异区域内的MFR值，将经过标准化处理的MFR值带入到回归模型中，得到回归模型预测患有癌症的风险得分（概率值），再根据训练集数据中ROC曲线选择得到的最优阈值（0.3917）对结果进行判断是否患有癌症。

实施例3

本实施例提供用于检测胰腺癌的蛋白组合物的筛选。筛选过程如下：

从上海瑞金医院收集得到69例经过组织病理学诊断确认为胰腺癌的患者（胰腺癌患者不特别区分早期或者晚期）和110例正常人样本。通过常规医院血清检测获得AFP、CA125、CA19-9、CA242、CA50、CEA、CYFRA21-1、NSE、PG I、PG II、free-β-hCG共11个蛋白的表达水平进行分析。

从上述样本中随机选取41例胰腺癌样本和80例正常人样本共121例，按照7：3的比例进一步地分为训练集和验证集。剩余的28例胰腺癌样本和30例健康人样本作为独立测试集。其中，训练集和验证集用于蛋白组合的筛选、模型训练和参数搜索，独立测试集用来测试模型训练的结果。

为了避免离群值对建模的影响，对训练集和独立测试集中的离群值（5%和95%）进行Winsorize缩尾处理。此外，由于不同蛋白标志物的定量方法和平台不一致，造成蛋白测量值范围的差异，因此使用Z-score的标准化方法，对数据进行标准化处理。

使用上述训练集包含28例胰腺癌样本和56例健康人样本共84例样本，对上述11个蛋白的测量结果在健康人和胰腺癌样本中进行Mann-Whitney U 双侧检验，从中筛选到具有显著差异的7个蛋白CA125、CA19-9、CA242、CA50、CEA、NSE和free-β-hCG（P<0.01，表4）。通过计算各变量之间的皮尔逊相关系数，发现蛋白CA242和CA19-9具有很强的线性关系（皮尔逊相关系数0.9，图3），为了减少线性相关变量导致的预测误差叠加，在后续的建模过程中去掉CA242。

表4 蛋白标志物的Mann-Whitney U 双侧检验统计量和P值

最终确定蛋白组合物为CA125、CA19-9、CA50、CEA、NSE和free-β-hCG。

实施例5

本实施例提供胰腺癌特异甲基化连锁区域和蛋白组合物的联合生物标志物在胰腺癌预测中的应用。

在本实施例中，所采用的数据集为230例健康人血浆样本与80例胰腺癌患者样本，按照7：3的比例分为训练集和测试集。根据上述实施例4中蛋白标志物的筛选结果，从蛋白测量数据中选择回归系数最大的两种蛋白标志物CA19-9和NSE。根据上述实施例1中甲基化MCB区域的筛选结果，选择表2所示差异MCB区域的MFR值进行后续分析。使用训练集中的样本均值和标准差对训练集样本和测试集样本进行Z-score标准化处理。分类器模型使用随机森林算法，对经过标准化处理的训练集使用5折交叉验证的方法进行超参数搜索和衡量预测结果。随机森林算法的参数为n_estimators=300、criterion=”gini”、max_depth=3、min_samples_split=2、min_samples_leaf=1、min_weight_fraction_leaf=0和max_features=0.8。

结果表明：使用蛋白组合物联合甲基化数据建模能在胰腺癌预测中获得比单一使用蛋白标志物组合和甲基化数据具有更高的AUC值，在训练集和独立测试集的AUC值分别为0.9924和0.9724（图4）。

实施例6

本实施例中提供了一种使用胰腺癌特异甲基化连锁区域和蛋白组合物的联合生物标志物预测胰腺癌的装置，该装置可以根据本申请所筛选得到的蛋白组合物CA19-9和NSE，以及本申请通过筛选得到的甲基化MCB区域的MFR值预测患有胰腺癌的概率。如图5所示，在本申请的实施例中，该装置包括蛋白数据接收模块、肿瘤数据接收模块、数据标准化模块和预测模块，其中：

蛋白数据接收模块被配置为用于接收CA19-9和NSE的蛋白表达量数据；肿瘤数据接收模块被配置为用于接收肿瘤组织、肿瘤血细胞和血浆的测序数据；

甲基化分析模块被配置为用于根据数据接收模块接收的甲基化测序数据，利用软件Bis-SNP检测SNP位点和CpG位点，然后根据上述位点信息计算表2中MCB区域内的MFR值；

数据标准化模块被配置为用于对蛋白表达量和甲基化MFR值使用Z-score方法进行标准化处理；

预测模块被配置为用于接收数据标准化模块的输出，并使用实施例5中预训练随机森林模型进行预测。

Claims

1.一种用于检测胰腺癌的生物标志物，其特征在于，所述生物标志物为甲基化生物标志物，所述甲基化生物标志物为下表中36个甲基化连锁区域的组合，

2.根据权利要求1所述的一种用于检测胰腺癌的生物标志物，其特征在于，所述生物标志物还包括蛋白生物标志物，所述蛋白生物标志物为蛋白组合物，为蛋白CA19-9和NSE。

3.检测权利要求1或2所述的用于检测胰腺癌的生物标志物的试剂在制备胰腺癌检测产品中的应用。

4.一种胰腺癌风险评估模型在制备胰腺癌检测产品中的应用，其特征在于，所述模型以权利要求1中所述的36个甲基化连锁区域的甲基化片段占比值为输入变量，所述甲基化片段占比值是指覆盖所述甲基化连锁区域的发生甲基化的片段数与覆盖该甲基化连锁区域所有片段数的比例，使用以下方程计算风险得分：

风险得分=-3.30817249+ω1×R1+ω2×R2+…+ω36×R36，其中，R1-R36为对应区域经过标准化处理的甲基化片段占比值，ω1-ω36分别为10.12996、9.580798、8.256078、7.938531、7.89972、7.325203、7.134957、6.699091、6.504028、4.477716、4.429816、3.994483、3.918222、3.895762、3.874542、3.413186、3.099879、2.994287、2.868603、2.862673、2.729428、2.49774、2.304279、2.119048、1.972702、1.802417、1.757027、1.656511、1.416264、1.229797、1.070327、1.048144、1.045056、0.731478、0.595732、0.217966。

5.一种胰腺癌预测装置，其特征在于，包括：

数据接收模块，其被配置为用于接收肿瘤组织、肿瘤血细胞或血浆的测序数据；

甲基化分析模块，其被配置为用于根据数据接收模块接收的测序数据，利用第一检测软件进行分析得到甲基化位点信息，并提取权利要求1中所述的甲基化连锁区域的甲基化片段占比值；

标准化模块，其与甲基化分析模块相连，对甲基化片段占比值使用Z-score方法进行标准化处理；

预测模块，其被配置为用于基于标准化模块处理后的数据和权利要求4中所述的胰腺癌风险评估模型计算风险得分，预测患有胰腺癌的概率。

6.基于权利要求1所述的生物标志物的胰腺癌检测的电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现权利要求5所述的胰腺癌预测装置中的胰腺癌预测方法。

7.基于权利要求1所述的生物标志物的用于胰腺癌检测的计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现权利要求5所述的胰腺癌预测装置中的胰腺癌预测方法。