CN116449018A

CN116449018A - 一种用于肠腺瘤腺癌诊断的血浆蛋白标记物及应用

Info

Publication number: CN116449018A
Application number: CN202310110373.3A
Authority: CN
Inventors: 孔祥兴; 丁克峰; 徐佳升; 胡烨婷; 刘军; 代晓转
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-07-18
Anticipated expiration: 2043-02-14
Also published as: CN116449018B

Abstract

本发明公开了一种用于肠腺瘤腺癌诊断的血浆蛋白标记物及应用，本发明根据肠腺瘤腺癌患者的血浆蛋白标记物表达信息，确定了与肠腺瘤腺癌相关的血浆蛋白标记物，所述血浆蛋白标记物包括GDF‑15，CD31，CD106，Galectin‑3，CD66e，Ferritin，AFP，CA125，IL‑17A和Midkine。本发明还建立了肠腺瘤腺癌患者诊断模型，便于早期筛查。本发明有助于降低基因表达检测的成本，值得在临床应用中的推广。

Description

一种用于肠腺瘤腺癌诊断的血浆蛋白标记物及应用

技术领域

本发明涉及生物信息技术领域，特别涉及一种用于肠腺瘤腺癌诊断的血浆蛋白标记物及应用。

背景技术

结直肠癌(colorectal cancer,CRC)是世界上第三大最常见的癌症，也是癌症相关死亡的第二大原因，2018年全球估计有180万例新病例，约88.1万人死亡。中国结直肠癌发病、死亡趋势与全球一致，但由于中国人口基数大，结直肠癌发病人数、死亡人数占全球结直肠癌发病人数、死亡人数比例相对均较高。结肠腺癌(ColonAdenocarcinoma,COAD)是结直肠癌中最常见的病理类型，而结肠腺瘤是结肠黏膜癌变过程中的一个阶段，大部分发生恶变的结肠黏膜组织在早期阶段可能是腺瘤。因此，以早筛为基础的早发现、早治疗、早诊断措施是预防其发生发展及提高存活率的重要手段，建立有效的的结直肠癌早筛诊断模型具有重要意义。

近年来，对结直肠癌早期筛查的研究不断扩大深入，但有效的早筛方式并未出现。“金标准”高准确度的侵入性结肠镜检查在中国并未完全普及，现有普及的无创筛查方式大便隐血试验虽操作简单、具有非侵入性，但是灵敏度低、特异性差。大多数使用非侵入性蛋白质生物标志物的研究只涉及1到5个蛋白质标志物。而血液检测是较为简单且普遍的诊断方法。因此，通过血浆蛋白标记物建立结直肠腺瘤腺癌早期筛查诊断模型或成为新思路。

发明内容

本发明的目的在于，提供一种用于肠腺瘤腺癌诊断的血浆蛋白标记物及应用。本发明提供了用于早期结直肠癌检测的最佳血浆蛋白标记物，并依据其结果建立并验证了一种用于早期结直肠癌检测诊断模型，便于早期筛查。

本发明的技术方案：一种用于肠腺瘤腺癌诊断的血浆蛋白标记物，所述血浆蛋白标记物包括GDF-15，CD31，CD106，Galectin-3，CD66e，Ferritin，AFP，CA125，IL-17A和Midkine。

一种血浆蛋白标记物在肠腺瘤腺癌诊断模型中的应用。

上述的应用，所述诊断模型的构建方法如下：

步骤1、获取血浆蛋白标记物表达数据集：获取受试者肘静脉血液样本，使用路明克斯液相芯片高性能测定法检测血浆蛋白标记物，并通过聚类分析检测离群值并排除离群值；

步骤2、模型预测：使用R语言包中的随机森林算法训练分类器，其余样本使用生成的预测模型进行验证；

步骤3、模型训练：使用Boruta进行特征筛选，使用交叉验证递归特征消除法进行递归特征消除筛选已定义的特征；

步骤4、特征消除：使用Probatus的ShapRFECV中的机器学习模型评价指标，采用十倍交叉验证的方法，寻找训练集中所需的特征数量；在伪发现率<0.05的训练数据的每一倍至十分之九，检测血浆蛋白标记物在结直肠癌患者组和对照组之间的差异值；

步骤5、评估模型准确性：从诊断为进展期腺瘤的患者样本中作为癌前病变的独立检测。

与现有技术相比，本发明基于对血液样本进行处理得到的相应数据，应用基于路明克斯液相芯片流式荧光多重技术在血浆中与细胞因子和胃肠道癌症相关的蛋白定量91种生物标志物中，找到用于早期结直肠癌检测的最佳血浆蛋白标记物，并依据其结果通过随机森林算法建立并验证了一种用于早期结直肠癌检测的基于机器学习的血浆蛋白标记物肠腺瘤腺癌诊断模型。本发明从样本血浆中提取的miRNA进行测序和数据库比对命名后，分别通过递归特征消除法(RFE)及可加特征归因方法(SHAP算法)，确定了10个最佳特征标志物，准确率基本维持在80％以上，上述实验结果阐明了以基于递归特征消除法(RFE)及可加特征归因方法(SHAP算法)构建最佳标志物的阳性高表达模型在结直肠癌早期筛查中的应用的可行性。本发明有助于降低基因表达检测的成本，值得在临床应用中的推广。

附图说明

图1展示了肠腺瘤腺癌诊断模型的构建流程示意图。

图2展示了肿瘤蛋白标志物数＝1的受试者工作特征曲线。

图3展示了肿瘤蛋白标志物数＝2的受试者工作特征曲线。

图4展示了肿瘤蛋白标志物数＝3的受试者工作特征曲线。

图5展示了肿瘤蛋白标志物数＝4的受试者工作特征曲线。

图6展示了肿瘤蛋白标志物数＝5的受试者工作特征曲线。

图7展示了肿瘤蛋白标志物数＝6的受试者工作特征曲线。

图8展示了肿瘤蛋白标志物数＝7的受试者工作特征曲线。

图9展示了肿瘤蛋白标志物数＝10的受试者工作特征曲线。

图10展示了肿瘤蛋白标志物数＝15的受试者工作特征曲线。

图11展示了肿瘤蛋白标志物数＝20的受试者工作特征曲线。

图12展示了肿瘤蛋白标志物数＝25的受试者工作特征曲线。

图13展示了肿瘤蛋白标志物数＝30的受试者工作特征曲线。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例：用于早期结直肠癌检测的基于机器学习的血浆蛋白标记物肠腺瘤腺癌诊断模型的构建及验证。步骤如图1所示。

首先是肿瘤蛋白分类模型的建立以及已检测样本的统计：

(1)肿瘤蛋白分类模型的建立：本发明为了训练预测模型，从任何阶段诊断为结直肠癌(I期-IV期)的患者的样本被作为结直肠(阳性)组处理(Ⅰ/Ⅱ＝100,Ⅲ/Ⅳ＝104)，并在模型训练中使用。同时，以健康个体(＝99)、良性病变(＝95)或炎症性肠病/肠易激综合征(＝42)作为对照组。并且以进展期腺瘤(＝94)作预测模型的独立验证。

(2)已检测样本的统计：共计检测样本数415例。其中，阴性对照组样本共176例(健康个体＝63，良性病变/炎症性肠病/肠易激综合征＝113)，进展期腺瘤36例，共检出了99例早期结直肠癌患者(I、II期)和104例晚期结直肠(III、IV期)患者的样本。如表1所示：

表1

本发明的肿瘤蛋白样本的获取是采用xMAP微球技术分离并检测0.1mL血浆中的肿瘤蛋白，具体为：

结肠镜检查前使用两根5mL乙二胺四乙酸真空采血管从肘静脉采血。离心血液(4℃下1800×g10分钟，2次)后收集血浆，-80℃保存以备检测。检测时，0.1mL血浆用磷酸盐缓冲盐水稀释2倍。用Luminex 200路明克斯液相悬浮芯片分析系统共测量了415个样本中的91个生物标志物，包括一个人类XL细胞因子发现LxPAM固定面板(45重)和两个定制面板(24重和22重)。

根据纳入标准与排除标准对数据集进行筛选。样本的纳入标准为：

阳性对照组纳入标准：

(1)样本类型为I/II期或III/IV期结直肠癌患者血清样本；

(2)患者的无复发生存率数据可获取；

(3)检测技术为基因表达谱芯片。

以上3项标准全部满足的数据集将被纳入后续分析。

阴性对照组纳入标准：

(1)样本类型为健康人、肠炎患者或肠良性病变患者血清样本；

(2)患者的无复发生存率数据可获取；

(3)检测技术为基因表达谱芯片。

以上3项标准全部满足的数据集将被纳入后续分析。

独立验证组纳入标准：

(1)样本类型为I肠进展期腺瘤患者血清样本；

(2)检测技术为基因表达谱芯片。

以上2项标准全部满足的样本将被纳入后续分析。

样本的排除标准为：

(1)样本类型非II期结直肠癌患者手术后肿瘤组织样本；

(2)样本来源在过去4周内进行完整病灶切除术。

以上2项标准中任意1项不满足的样本将被排除。

最终纳入分析的样本包括正常人99例、肠炎患者42例、良性病变患者95例作为阴性对照组，如表2所示：

表2

肠癌I/II期患者100例、肠癌III/IV期患者104例作为阳性对照，如表3所示：

表3

进展期腺瘤患者94例作为独立验证组，如表4所示。

独立验证
	进展期腺瘤
94

表4

(2)基于随机森林模型的机器学习；

对所选样本进行模型预测，从每组中随机选择70％的样本，使用R语言包(scikit-learn包)中随机森林(RF)算法训练分类器，其余样本使用生成的预测模型进行验证。以健康/良性病变/肠炎作为阴性，肠癌作为阳性，获得训练集和测试集，如表5所示：

训练集阳性病例数	训练集阴性病例数	测试集阳性病例数	测试集阴性病例数
				142	122	61	53

表5

使用T检验进行特征(生物标志物)差异筛选，使用交叉验证递归特征消除法(RFECV方法)进行递归特征消除(RFE)方法筛选建模特征，且使用10折交叉验证来保证筛选到的特征在训练集中稳定性。然后使用python sklean模块中的sklearn.ensemble.RandomForestClassifier(sklearn.ensemble.RandomForestClassifier—scikit-learn1.1.3documentation)函数对筛选到的特征来进行建立模型。本发明中肠腺瘤腺癌诊断模型中使用的蛋白标志物如下表6所示：

表6

在剩余训练样本上评估模型预测的准确性，并绘制了去除家族性腺瘤性息肉病患者数据的肿瘤蛋白预测模型的受试者工作特征曲线，如图2-13所示。图2展示了肿瘤蛋白标志物数＝1的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.937，模型特异性(Specificity)为0.868，灵敏度(sensitivity)达0.869。图3展示了肿瘤蛋白标志物数＝2的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.955，模型特异性(Specificity)为0.943，灵敏度(sensitivity)达0.836。图4展示了肿瘤蛋白标志物数＝3的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.929，模型特异性(Specificity)为0.925，灵敏度(sensitivity)达0.852。图5展示了肿瘤蛋白标志物数＝4的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.899，模型特异性(Specificity)为0.830，灵敏度(sensitivity)达0.902。图6展示了肿瘤蛋白标志物数＝5的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.868，模型特异性(Specificity)为0.736，灵敏度(sensitivity)达0.885。图7展示了肿瘤蛋白标志物数＝6的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.818，模型特异性(Specificity)为0.755，灵敏度(sensitivity)达0.885。图8展示了肿瘤蛋白标志物数＝7的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.969，模型特异性(Specificity)为0.943，灵敏度(sensitivity)达0.902。图9展示了肿瘤蛋白标志物数＝10的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.960，模型特异性(Specificity)为0.925，灵敏度(sensitivity)达0.934。图10展示了肿瘤蛋白标志物数＝15的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.964，模型特异性(Specificity)为0.943，灵敏度(sensitivity)达0.869。图11展示了肿瘤蛋白标志物数＝20的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.963，模型特异性(Specificity)为0.887，灵敏度(sensitivity)达0.967。图12展示了肿瘤蛋白标志物数＝25的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.977，模型特异性(Specificity)为0.943，灵敏度(sensitivity)达0.902。图13展示了肿瘤蛋白标志物数＝30的受试者工作特征曲线，其中相应受试者工作特征曲线下面积(AUC)为0.971，模型特异性(Specificity)为0.943，灵敏度(sensitivity)达0.902。

从诊断为进展期腺瘤的患者(数量＝35)样本中作为癌前病变的独立检测，检验各随机森林模型在结直肠癌早期检测中的性能。

经过试验，肠腺瘤腺癌诊断模型的预测性能如表7所示：

表7

去除炎症性肠病/肠易激综合征后的肿瘤蛋白预测样本汇总如表8所示：

表8

去除炎症性肠病/肠易激综合征后的肠腺瘤腺癌诊断模型的预测性能如表9所示：

表9

从表7和表9中可以看出，本发明所构建的肠腺瘤腺癌诊断模型的预测性能基本维持在80％-90％左右，特异性和灵敏度也基本在90％左右，去除炎症性肠病/肠易激综合征后的预测性能也在80-90％，特异性和灵敏度维持在80％以上。这证实本发明提出的最佳血浆蛋白标记物可以用于早期结直肠癌检测。同时本发明所建立的肠腺瘤腺癌诊断模型也具有较高的准确性和灵敏度。上述实验结果阐明了以基于递归特征消除法(RFE)及可加特征归因方法(SHAP算法)构建最佳标志物的阳性高表达模型在结直肠癌早期筛查中的应用的可行性。本发明有助于降低基因表达检测的成本，值得在临床应用中的推广。

Claims

1.一种用于肠腺瘤腺癌诊断的血浆蛋白标记物，其特征在于：所述血浆蛋白标记物包括GDF-15，CD31，CD106，Galectin-3，CD66e，Ferritin，AFP，CA125，IL-17A和Midkine。

2.如权利要求1所述血浆蛋白标记物在肠腺瘤腺癌诊断模型中的应用。

3.根据权利要求2所述的应用，其特征在于：所述诊断模型的构建方法如下：