CN115331812A

CN115331812A - 一种浆液性卵巢癌预后标志物模型的建立和验证方法

Info

Publication number: CN115331812A
Application number: CN202211153210.5A
Authority: CN
Inventors: 李红东; 罗凤媛; 洪贵妮
Original assignee: Gannan Medical University
Current assignee: Gannan Medical University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-11-11

Abstract

本申请涉及一种浆液性卵巢癌预后标志物模型的建立和验证方法，将不同平台的样本合并为训练集，采用基于样本内基因相对表达秩序关系的方法形成基因对矩阵，利用Cox回归模型得到预后显著相关基因对，再通过正向选择、贪婪算法、测试筛选出一组基因对作为浆液性卵巢癌预后标志物模型，在其他不同平台的样本测试集和样本验证集中得到验证。这种方法基于基因间相对秩序关系，可以在个体化水平上应用于不同实验室的独立临床样本，准确预测诊断癌症的发生发展过程，避免了预后标志在风险分层时阈值选择所受的系统偏差和实验室批次效应影响，综合考虑了浆液性卵巢癌发生发展过程中各种基因对预后产生的影响，具备浆液性卵巢癌患者预后的临床应用价值。

Description

一种浆液性卵巢癌预后标志物模型的建立和验证方法

技术领域

本申请涉及卵巢癌预后技术领域，特别是涉及一种浆液性卵巢癌预后标志物模型的建立和验证方法。

背景技术

浆液性卵巢癌通常在晚期被发现并且预后较差，使其成为妇科癌症死亡的第二大常见原因。浆液性卵巢癌具有多变的生物学和复杂的分子特征，实现个体化精准医疗是其预后面临的最大挑战。

随着大数据和基因技术的发展，出现了基于全基因组表达变化，寻找卵巢癌预后生物标志的技术。目前这种技术主要分成两类：第一类是评估单个基因标志对卵巢癌预后的影响，此类基于单个基因的研究并未考虑基因间相互作用的影响，无法准确预测浆液性卵巢癌患者的预后；第二类是基于某个特征层面评价一组基因的预后价值，这种方法忽略了患者个体的异质性和影响因素的复杂性，容易导致其预后标志过度拟合而无法真正地应用于临床。

目前无论是基于单个基因还是一组功能相关基因的卵巢癌预后预测模型，大多基于风险评分、通过预设风险评分阈值来判断患者风险高低，但由于批次效应和平台差异，基因表达水平对微阵列测量的系统偏差很敏感，训练数据集生成的风险阈值不能直接应用于独立数据集。并且，基于基因表达水平的风险评分方法，在样本风险分类时并不确定分类为高风险或低风险，无法在临床中应用。最后，目前大部分的研究都存在一个共同的问题，样本量太小，找出的基因标志鲁棒性非常差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在浆液性卵巢癌样本中寻找稳定的具有临床转化价值的预后风险标志的方法。

一种浆液性卵巢癌预后标志物模型的建立方法，所述方法包括：

步骤A：从基因表达综合数据库获取浆液性卵巢癌患者的表达谱数据和临床信息，对所述表达谱数据和临床信息进行预处理，将来自不同检测平台的浆液性卵巢癌表达谱数据集分为两个数据子集，一个数据子集作为训练集，另一数据子集作为测试集；

步骤B：通过Cox回归模型筛选出与浆液性卵巢癌患者总生存率显著相关的基因，将所述显著相关的基因两两组合得到候选预后相关基因对，根据所述候选预后相关基因对的相对表达秩序关系得到基因对矩阵，通过Cox回归模型基于所述基因对矩阵筛选出与浆液性卵巢癌预后显著相关的基因对；

步骤C：将所述与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，所述一致性指数C-index是描述预后模型的预测能力的指数，采用贪婪算法对所述前N组基因对中的每个基因对进行筛选，再利用所述测试集对所述基因对进行测试，将得到的一组基因对作为浆液性卵巢癌预后标志物模型。

在其中一个实施例中，所述对表达谱数据和临床信息进行预处理包括：

步骤A1：去除没有临床信息和总生存期为0天的肿瘤样本；

步骤A2：去除正常样本；

步骤A3：去除低表达基因，所述低表达基因是超过一半的样本基因表达缺失或为0的基因。

在其中一个实施例中，所述将来自不同检测平台的浆液性卵巢癌表达谱数据集作为训练集，将另一数据集的浆液性卵巢癌表达谱数据集合作为测试集包括：所述训练集是检测平台GPL570、GPL8300、GPL96平台的GSE18520、GSE19829、TCGA的浆液性卵巢癌表达谱数据集合，测试集是来自GPL7759平台GSE13876的浆液性卵巢癌表达谱数据集合。

在其中一个实施例中，所述步骤B：通过Cox回归模型筛选出与浆液性卵巢癌患者总生存率显著相关的基因，将所述显著相关的基因两两组合得到候选预后相关基因对，根据所述候选预后相关基因对的相对表达秩序关系得到基因对矩阵，通过Cox回归模型基于所述基因对矩阵筛选出与浆液性卵巢癌预后显著相关的基因对，包括：

通过Cox回归模型对所述训练集中的单个基因进行认定，当p值小于0.05时，认定该基因为与卵巢癌患者总生存率显著相关的基因；

将所述显著相关的基因两两组合得到候选预后相关基因对，根据所述候选预后相关基因对的相对表达秩序关系得到基因对矩阵；

通过Cox回归模型对所述候选预后相关基因对进行认定，当p值小于0.05值时认定该基因对为与卵巢癌预后显著相关的基因对。

在其中一个实施例中，所述步骤C：将所述与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，所述一致性指数C-index是描述预后模型的预测能力的指数，采用贪婪算法对所述前N组基因对中的每个基因对进行筛选，再利用所述测试集对所述基因对进行测试，得到的一组基因对作为浆液性卵巢癌预后标志物模型，包括：

以所述与卵巢癌预后显著相关的基因对中的每个基因对为种子，将剩下基因对一一添加进组合，如果基因对添加后一致性指数C-index值变大，则继续往所述组合添加基因对，如果基因对添加后一致性指数C-index值变小，则不添加基因对，直至一致性指数C-index值不再增加时，得到N组基因对，所述一致性指数C-index是描述预后模型的预测能力的指数；

根据所述N组基因对，按照一致性指数C-index值由大到小排序，利用所述测试集对所述N组基因对进行测试，筛选出与浆液性卵巢癌预后相关且一致性指数C-index值最高的一组基因对，作为最终的浆液性卵巢癌预后标志物模型。

一种浆液性卵巢癌预后标志物模型的验证方法

步骤A：从基因表达综合数据库获取浆液性卵巢癌患者的表达谱数据和临床信息，对所述表达谱数据和临床信息进行预处理，将来自不同检测平台的浆液性卵巢癌表达谱数据集分为三个数据子集，一个数据子集作为训练集，一个数据子集作为测试集，另一个数据子集作为验证集；

步骤C：将所述与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，采用贪婪算法对所述前N组基因对中的每组基因对进行筛选，再利用所述测试集对所述基因对组合进行测试，将得到的一组基因对作为浆液性卵巢癌预后标志物模型；

步骤D：对所述浆液性卵巢癌预后标志物模型在验证集验证，具体包括：对所述浆液性卵巢癌预后标志物模型进行生存分析、对所述浆液性卵巢癌预后标志物模型进行功能富集分析、对所述浆液性卵巢癌预后标志物模型进行免疫浸润分析。

在其中一个实施例中，所述对所述浆液性卵巢癌预后标志物模型进行生存分析，包括：

当基因对G_a，G_b在样本中的表达秩序关系为G_a大于G_b，则判定该样本为高风险，当基因对G_a，G_b在样本中的表达秩序关系为G_a小于或等于G_b，则判定该样本为低风险，再结合年龄、分期信息进行多因素Cox风险回归分析。

在其中一个实施例中，所述对所述浆液性卵巢癌预后标志物模型进行功能富集分析，包括：

基于在线数据库Metascape中的京都基因、基因组百科全书、基因本体论对基因对所述浆液性卵巢癌预后标志物模型进行功能富集分析，并在人类疾病相关基因与突变位点数据库中对预后基因标志进行基因注释和通路分析，搜索基因标志对中与癌症发生发展相关的通路。

在其中一个实施例中，所述对所述浆液性卵巢癌预后标志物模型进行免疫浸润分析，包括：

使用TIMER2.0对训练集中高低风险组之间免疫细胞的含量进行估计，采用Wilcoxon检验方法进行比较。

在其中一个实施例中，所述训练集中高低风险组之间免疫细胞包括六种：B细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞、树突状细胞。

上述一种浆液性卵巢癌预后标志物模型的建立和验证方法，将不同平台的样本合并为训练集，采用基于样本内基因相对表达秩序关系的方法形成基因对矩阵，利用Cox回归模型得到预后显著相关基因对，再通过正向选择、贪婪算法、测试筛选出一组基因对作为浆液性卵巢癌预后标志物模型，并在其他不同平台的样本测试集和样本验证集中得到验证。这种方法基于基因间相对秩序关系，可以在个体化水平上稳健地应用于在不同实验室评估的独立临床样本，准确预测诊断癌症的发生发展过程。此外，此方法基于不同平台全基因组表达谱样本内基因表达秩序关系筛选预后基因标志，避免了预后标志在风险分层时阈值选择所受的系统偏差和实验室批次效应影响，综合考虑了浆液性卵巢癌发生发展过程中各种基因对预后产生的影响，基因标志能做到真正的个性化预测患者预后，具备浆液性卵巢癌患者预后的临床应用价值。

附图说明

图1为一个实施例中一种浆液性卵巢癌预后标志物模型的建立方法的流程示意图；

图2为一个实施例中浆液性卵巢癌训练集、测试集、验证集的建立流程示意图；

图3为一个实施例中根据基因相对秩序关系建立基因对矩阵的示意图；

图4为一个实施例中一种浆液性卵巢癌预后标志物模型的验证方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种浆液性卵巢癌预后标志物模型的建立和验证方法，基于样本内基因间相对表达秩序关系识别疾病分子标志，得到的一组基因对作为浆液性卵巢癌预后标志物模型。

在一个实施例中，如图1所示，提供了一种浆液性卵巢癌预后标志物模型的建立方法，具体包括：

步骤102，从基因表达综合数据库获取浆液性卵巢癌患者的表达谱数据和临床信息，对表达谱数据和临床信息进行预处理，将来自不同检测平台的浆液性卵巢癌表达谱数据集分为两个数据子集，一个数据子集作为训练集，另一数据子集作为测试集；

回顾性收集了8个独立数据集的基因表达谱，包含1493个样本。所分析的数据来自基因表达综合数据库(GEO,http://www.ncbi.nlm.nih.gov/geo/)和加州大学圣克鲁兹分校下的数据库(UCSC Xena，https://xenabrowser.net/datapages/)，均为芯片数据。

从GEO下载的原始数据经过RMA算法进行预处理。使用各平台中的注释文件将探针ID映射到基因ID。删除了未映射到基因的探针。对于映射到相同基因的不同探针，用不同探针的平均值作为该基因的最终表达值。从UCSC-Xena数据库中下载了630例癌症基因组图谱计划(TCGA，The Cancer Genome Atlas)卵巢癌患者的芯片表达谱数据和临床资料。在构建预后基因标志对之前需要对数据进行以下预处理：1)去除没有临床信息和总生存期为0天的肿瘤样本；2)去除正常样本；3)去除低表达基因(超过一半的样本基因表达缺失或为0)。

将来自不同检测平台GPL570、GPL8300、GPL96平台的GSE18520、GSE19829、TCGA的浆液性卵巢癌表达谱数据集合并作为训练集；来自GPL7759平台GSE13876数据集作为测试集；来自GPL96平台的GSE14764和GSE26712数据集合并为验证集1，GPL570、GPL6480平台的GSE26193、GSE53963的数据集为验证集2、验证集3。具体研究流程见图2。

在本实施例中，三套训练数据集共同检测的基因数为6934个。针对共同检测基因，分别在三套训练集中识别候选的与卵巢癌预后显著相关的基因。

步骤104，通过Cox回归模型筛选出与浆液性卵巢癌患者总生存率显著相关的基因，将显著相关的基因两两组合得到候选预后相关基因对，根据候选预后相关基因对的相对表达秩序关系得到基因对矩阵，通过Cox回归模型基于基因对矩阵筛选出与浆液性卵巢癌预后显著相关的基因对；

单变量Cox回归分析被用来筛选预后相关基因及基因对。当Cox回归分析应用于分析单基因时，p值小于0.05认定为与卵巢癌患者总生存率显著相关。将预后显著相关基因两两组合可获得候选的预后相关基因对。

根据每个基因对在每个样本中的相对表达秩序关系，在每个样本中用基因间的相对大小等级替换实际表达水平，可获得候选预后相关基因对的相对表达秩序关系矩阵X，如图3所示。该矩阵为0-1矩阵，其中，x_i，ab＝1表示基因对(Ga，Gb)在样本i中的表达秩序关系为基因Ga大于基因Gb，x_i，ab＝0表示基因对(Ga，Gb)在样本i中的表达秩序关系为基因Ga小于或等于基因Gb。当Cox回归分析应用于分析基因对时，认定Benjamini–Hochberg校正后p值小于0.05的基因对为与卵巢癌预后显著相关的基因对。

步骤106：将与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，一致性指数C-index是描述预后模型的预测能力的指数，采用贪婪算法对前N组基因对中的每个基因对进行筛选，再利用测试集对基因对进行测试，将得到的一组基因对作为浆液性卵巢癌预后标志物模型。

为了构建基因对标志的预后模型，将所有得到的显著预后相关基因对，按照正向选择顺序选择一致性指数C-index值最大的前N组基因对。采用贪婪算法为每个基因对筛选一组最优预后基因对组合。具体做法如下：依次以每个基因对为种子，剩下所有基因对一一添加进组合，如果基因对添加后C-index值变大，则继续往组合添加基因对，反之，则不添加，直至C-index值不再增加。这样，可得到N组局部最优的组合基因对预后生物标志。然后，针对每一个组合，再按照C-index值由大到小排序后，利用测试集GSE13876从中筛选出与预后相关(p<0.05)且C-index值较高的一个组合，作为最终的预后相关生物标志基因对。

上述一种浆液性卵巢癌预后标志物模型的建立方法中，将不同平台的样本合并为训练集，采用基于样本内基因相对表达秩序关系的方法形成基因对矩阵，利用Cox回归模型得到预后显著相关基因对，再通过正向选择、贪婪算法、测试筛选出一组基因对作为浆液性卵巢癌预后标志物模型，这种方法基于基因间相对秩序关系可以在个体化水平上稳健地应用于在不同实验室评估的独立临床样本，准确的预测诊断癌症的发生发展过程。此外，此方法基于不同平台全基因组表达谱样本内基因表达秩序关系筛选预后基因标志，避免了预后标志在风险分层时阈值选择所受的系统偏差和实验室批次效应影响，综合考虑了浆液性卵巢癌发生发展过程中各种基因对预后产生的影响，基因标志能做到真正的个性化预测患者预后，具备浆液性卵巢癌患者预后的临床应用价值。

在一个实施例中，如图4所示，提供了一种浆液性卵巢癌预后标志物模型的验证方法，具体包括：

步骤402，从基因表达综合数据库获取浆液性卵巢癌患者的表达谱数据和临床信息，对表达谱数据和临床信息进行预处理，将来自不同检测平台的浆液性卵巢癌表达谱数据集分为三个数据子集，一个数据子集作为训练集，一个数据子集作为测试集，另一个数据子集作为验证集；

步骤404，通过Cox回归模型筛选出与浆液性卵巢癌患者总生存率显著相关的基因，将显著相关的基因两两组合得到候选预后相关基因对，根据候选预后相关基因对的相对表达秩序关系得到基因对矩阵，通过Cox回归模型基于基因对矩阵筛选出与浆液性卵巢癌预后显著相关的基因对；

步骤406：将与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，采用贪婪算法对前N组基因对中的每组基因对进行筛选，再利用测试集对基因对组合进行测试，将得到的一组基因对作为浆液性卵巢癌预后标志物模型。

步骤408：对浆液性卵巢癌预后标志物模型在验证集验证，具体包括：对浆液性卵巢癌预后标志物模型进行生存分析、对浆液性卵巢癌预后标志物模型进行功能富集分析、对浆液性卵巢癌预后标志物模型进行免疫浸润分析。

对浆液性卵巢癌预后标志物模型进行生存分析：当基因对G_a，G_b在样本中的表达秩序关系为G_a大于G_b，则判定该样本为高风险，当基因对G_a，G_b在样本中的表达秩序关系为G_a小于或等于G_b，则判定该样本为低风险，再结合年龄、分期信息进行多因素Cox风险回归分析。采用浆液性卵巢癌预后标志物模型对各个数据集中的样本进行风险评分，依据半数基因对投票原则判定样本的高低风险。在训练集中，根据浆液性卵巢癌预后标志物模型的秩序关系投票，将298和452个样本分别归入高低风险组，两组之间的生存分析存在显著差异(p<0.0001，HR＝0.23，95％CI：0.18-0.29)。在三套验证集中，其分别将292和136、44和145、129和150例样本归入高、低风险组，且生存分析存在显著差异(p＝0.0077，HR＝0.60，95％CI：0.41-0.88)、(p＝0.028，HR＝0.54，95％CI：0.31-0.94)、(p＝0.0062，HR＝0.59，95％CI：0.41-0.87)。Kaplan Meier生存曲线表明，在训练集中，高危组卵巢癌患者的总生存率较低，而低风险患者通常表现出更长的生存时间，两组生存有显著差异。由于患者的总体生存时间分布超过5年，因此选取3、5和7年评估模型的AUC。训练集的平均AUC为0.756；验证集1的平均AUC为0.59；验证集2的平均AUC为0.630；验证集3的平均AUC为0.680。这表明基因标志对具有显著的预后价值。

对浆液性卵巢癌预后标志物模型进行功能富集分析：基于在线数据库Metascape中的京都基因、基因组百科全书、基因本体论对基因对所述浆液性卵巢癌预后标志物模型进行功能富集分析，并在人类疾病相关基因与突变位点数据库中对预后基因标志进行基因注释和通路分析，搜索基因标志对中与癌症发生发展相关的通路。针对浆液性卵巢癌预后标志物模型中的基因，通过Metascape进行功能分析。富集结果表明有8个基因在调节细胞因子产生的生物学通路中显著富集。细胞因子(cytokine)是指主要由免疫细胞分泌的、能调节细胞功能的小分子多肽。细胞因子和细胞因子受体过程在免疫应答过程中，主要与调节机体的免疫应答、造血功能和炎症反应有关。它们可以抑制肿瘤的发生和进展，并且也被证明在癌症治疗方面是有效的。3个基因参与病毒进入宿主细胞生物学通路。DisGeNet数据库中通路分析显示有5个基因与肿瘤复发相关，证实浆液性卵巢癌预后标志物模型在癌症的发生发展过程中发挥了的作用。然后，针对高风险和低风险组中的差异表达基因进行了进一步的富集分析。结果表明，在PI3K-Akt信号通路、癌症中蛋白多糖通路、AGE-RAGE信号通路显著富集。

对浆液性卵巢癌预后标志物模型进行免疫浸润分析：使用TIMER2.0对训练集中高低风险组之间免疫细胞的含量进行估计，采用Wilcoxon检验方法进行比较。使用Timer数据库的Estimation对训练集的高低风险样本进行分析，训练集中高低风险组之间免疫细胞包括六种：B细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞、树突状细胞，结果发现预后基因标志风险分组中CD8+T细胞、中性粒细胞、巨噬细胞、树突状细浸润水平存在显著新差异(P<0.001，Wicoxon检验)，且低风险组具有更高的浸润水平。

应该理解的是，虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种浆液性卵巢癌预后标志物模型的建立方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对表达谱数据和临床信息进行预处理包括：

步骤A1：去除没有临床信息和总生存期为0天的肿瘤样本；

步骤A2：去除正常样本；

3.根据权利要求1所述的方法，其特征在于，所述将来自不同检测平台的浆液性卵巢癌表达谱数据集分为两个数据子集，一个数据子集作为训练集，将另一数据子集作为测试集包括：

所述训练集是检测平台GPL570、GPL8300、GPL96平台的GSE18520、GSE19829、TCGA的浆液性卵巢癌表达谱数据集合，测试集是来自GPL7759平台GSE13876的浆液性卵巢癌表达谱数据集合。

4.根据权利要求1所述的方法，其特征在于，所述步骤B：通过Cox回归模型筛选出与浆液性卵巢癌患者总生存率显著相关的基因，将所述显著相关的基因两两组合得到候选预后相关基因对，根据所述候选预后相关基因对的相对表达秩序关系得到基因对矩阵，通过Cox回归模型基于所述基因对矩阵筛选出与浆液性卵巢癌预后显著相关的基因对，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述步骤C：将所述与浆液性卵巢癌预后显著相关的基因对按照正向选择顺序选择一致性指数C-index值最大的前N组基因对，所述一致性指数C-index是描述预后模型的预测能力的指数，采用贪婪算法对所述前N组基因对中的每个基因对进行筛选，再利用所述测试集对所述基因对进行测试，得到的一组基因对作为浆液性卵巢癌预后标志物模型，包括：

6.一种浆液性卵巢癌预后标志物模型的验证方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述浆液性卵巢癌预后标志物模型进行生存分析，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述浆液性卵巢癌预后标志物模型进行功能富集分析，包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述浆液性卵巢癌预后标志物模型进行免疫浸润分析，包括：

10.根据权利要求9所述的方法，其特征在于，所述训练集中高低风险组之间免疫细胞包括六种：B细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞、树突状细胞。