CN117153392A

CN117153392A - 一种胃癌预后预测的标志物、评估模型及其构建方法

Info

Publication number: CN117153392A
Application number: CN202311085205.XA
Authority: CN
Inventors: 李振彰; 罗通; 柯万江; 李国�
Original assignee: Yunji Intelligent Biotechnology Guangzhou Co ltd
Current assignee: Jixiang Intelligent Manufacturing Guangzhou Intelligent Technology Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-12-01

Abstract

本发明公开了一种胃癌预后预测的标志物、评估模型及其构建方法，包括：使用SBS44*和SBS18*作为基本变量的背景突变特征来构建个体FYSR预测的精确模型；定制一种人工智能算法，称为累积贡献丰度CCA，用于独立评估每个癌症样本中每个基因对每个特征的贡献概率，并减少样本间突变负载的干扰。CCA模型可以更好地反映基因与突变特征之间的关系，从而确保实现方便、快速、准确的个体FYSR预测的可能性。本发明以特定基因结合特征图谱预后因子的突变型为输入指标，构建相应的胃癌五年存活率预测模型，除了辅助胃癌的诊疗，也可以用于预防警示，指导个体调整治疗方案，利于推广普及，利于提高胃癌病人五年存活率的可能。

Description

一种胃癌预后预测的标志物、评估模型及其构建方法

技术领域

本发明属于生物信息与生物标志物技术领域，特别是涉及一种胃癌预后预测的标志物、评估模型及其构建方法。

背景技术

五年生存率(FYSR)是评价癌症患者外科治疗有效性的重要临床指标。这也是医生在病人出院时制定预后治疗计划的重要参考，包括放疗或化疗的频率、药物类型和身体复查的周期等。根据美国癌症协会的数据，世界范围内死亡率最高的四种恶性肿瘤(包括肺癌、肝癌、胃癌和结直肠癌)的FYSRs分别为17％、26％、32％和64％。为了提高预后存活率，他们的标准化治疗方案通常比其他肿瘤更复杂。因此，对FYSR的准确和合理的预测可以明确地控制关于肿瘤预后生物学的预测信息，并从本质上提高癌症患者的存活率。不幸的是，现实依然严峻。当前的FYSR通常使用肿瘤分期作为临床邻近点。由于肿瘤分期是根据癌症患者五年生存期的临床统计数据确定的，这种以平均数据为标准的经典统计方法缺乏个性(例如肿瘤异质性的影响)，降低了癌症患者的生存率。因此，有必要根据更多的或者其他的生物指标构建一种胃癌预后预测的评估模型，比如基于个体特征如基因工程开发FYSR预测模型。

最近，人工智能(AI)驱动的基因工程为肿瘤的个体精确诊断和预后治疗提供了许多机会，并在上述领域取得了快速进展。在这些研究范式中，准确性是一个需要追求的重要参数，它取决于肿瘤基因突变的特征提取和算法模型。以癌症(GC)为例，许多研究表明，单碱基取代(SBS)18的特征作为一种与活性氧物种相关的突变特征，其CDH1引起的高突变负荷的特征可以作为准确预后和评估GC的潜在特征。SBS44是一种与DNA错配修复(MMR)缺陷相关的突变特征，在本发明中指出其是胃癌的另外一个特征图谱预后特征。在以往的技术实现中，均没有通过基因突变结合突变图谱特征这种预后因子一起进行预测五年存活率的案例。

发明内容

本发明的目的是提供一种胃癌预后预测的标志物、评估模型及其构建方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种胃癌预后预测的标志物、评估模型及其构建方法，包括：

获取若干个胃癌数据集进行预处理；对预处理后的若干个胃癌数据集进行特征图谱提取,同时对各个数据集进行单独的特征图谱分解；

通过RNMF方法包的相似性评估函数对分解的特征图谱与COSMIC数据库的特征图谱进行注释，标识出胃癌全部的分解的特征图谱；对胃癌全部的分解的特征图谱进行生存分析，提取与预后相关的SBS18与SBS44作为预后因子；

通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因，并且采用DRP算法判断关联基因之间是否存在互斥关系；

基于显著性关联基因与互斥关系判断结果构建CCA算法模型；

基于预后因子的特征图谱与关联基因，通过CCA算法模型获得CCA矩阵数据，基于CCA矩阵数据构建五年生存率模型，采用随机森林算法作为核心算法获得五年生存率的标志物。

可选的，获取若干个胃癌数据集并进行预处理的过程包括：

检索与胃癌相关的文献，根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息，形成若干个胃癌数据集；并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释。

可选的，获取突变特征图谱的过程包括：采用RNMF方法包对处理后的若干个胃癌数据集进行非负定矩阵分解，提取对应的突变特征图谱。

可选的，所述CCA算法模型如下：

式中，C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度，θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献，ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响，P是突变特征矩阵，S是样本贡献度矩阵，PmkSkn代表肿瘤样本n中突变类型m对突变特征图谱k的影响，是基因g在肿瘤样本n中的突变类型m的影响因子。

可选的，

构建五年生存率模型的过程包括：

根据若干个胃癌测试集获得模型训练集与模型测试集，基于模型训练集与模型测试集，应用R-随机森林进行分析获得五年生存率预测模型。

可选的，

获取初始训练集与初始测试集的过程包括：

将若干个胃癌数据集根据生存时间与存活状态划分为四个组别，将满足生存时间与存活状态要求的数据进行二次分割，获得两个独立的数据集，分别作为初始训练集和初始测试集。

可选的，获得五年生存率预测模型的过程还包括：

在初始训练集中提取预设比例的数据进行合并后进行扩充，并过滤掉均值小于0.001的属性特征，获得第一训练集；

采用随机森林算法训练第一训练集，构建多组模型集合；

每组模型分别测试评估初始训练集与初始测试集，循环上述过程不低于预设次数后，选取符合第一阈值要求的参数模型组；

判断子训练集与初始训练集在对应模型下是否满足第二阈值要求，将符合要求的模型作为五年生存率预测模型。

本发明的技术效果为：

(1)本发明发现了两个与胃癌预后相关的预后因子，分别为SBS18和SBS44。同时基于这两个预后因子作为背景输入构建好的CCA模型，分析得到每个基因对于这两个预后因子的CCA概率模型，通过随机森林算法进行评估与筛选，最后筛选出了14个癌相关的基因，分别为：TP53、APC、CSMD3、KMT2C、MUC16、NOTCH2、ATRX、SETBP1、PIK3CA、NIN、CDH11、SRGAP3、SETD2和DCC。这些基因与两个预后因子结合的19个基因突变型(分别为TP53_SBS44，TP53_SBS18，MUC16_SBS18，APC_SBS44，CSMD3_SBS44，KMT2C_SBS44，MUC16_SBS44，NOTCH2_SBS44，ATRX_SBS44，SRGAP3_SBS44，SETBP1_SBS18，PIK3CA_SBS44，NIN_SBS44，SETD2_SBS44，CDH11_SBS18，SRGAP3_SBS18，SETD2_SBS18，DCC_SBS44和DCC_SBS18)可作为具有较高预测准确度的胃癌五年存活率评估的分子标记物。

(2)本发明基于这19个与胃癌五年生存率密切相关的突变基因型建立了预测胃癌五年存活率的风险评估模型，这19个基因突变型风险模型在预测胃癌患者五年生存率表现出良好的性能；同时，通过验证风险模型对独立的癌患者的预测准确性，发现此模型具有很好的普适性，可为胃癌患者五年存活率预后预测提供以一种有效的预测工具，为指导临床工作者制定个体化治疗方案提供新的思路，指导临床医师进行治疗决策。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的SBS18与SBS44生存分析结果示意图；

图2为本发明实施例中的特征关联基因寻找函数分析结果示意图；

图3为本发明实施例中的DRP算法分析结果示意图；

图4为本发明实施例中的模型技术路线示意图；

图5为本发明实施例中的五年生存率模型测试结果示意图；

图6为本发明实施例中的模型预测效果示意图；

图7为本发明实施例中的云端服务流程示意图；

图8为本发明实施例中的方法流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1-8所示，本实施例中提供一种胃癌预后预测的标志物、评估模型及其构建方法，包括：

1)数据集获取

从NCBI数据库PubMed文献库中检索与胃癌相关的文献，梳理文献附件内容，收集全基因组测序(WGS)的体细胞单碱基突变数据(Somatic SNVs)以及对应样本的临床表型信息，接着基于人类参考基因组(GRCH37版本)使用Oncotator软件对Somatic SNVs进行注释，并生成MAF格式的文件；

2)特征图谱的提取与生存分析

第一步：采用RNMF方法包对注释结果(MAF格式的文件)进行非负定矩阵分解，提取462个胃癌(GC)数据集的特征图谱，同时也对各个数据集进行单独的特征图谱分解，并通过RNMF方法包的相似性评估函数将分解的特征图谱与COSMIC数据库的特征图谱进行注释，标识出胃癌的所有分解的特征图谱，其中SBS18与SBS44是胃癌中两个常见的特征图谱。

第二步：生存分析寻找合适的预后因素，通过survival包进行Kaplan-Meier生存分析，对象是各个特征图谱。如图1所示，预后分析结果展现与预后相关的特征图谱预后因子是SBS18与SBS44，并且SBS18与预后差相关，而SBS44与预后好紧密关联。

3)寻找预后因子的互斥因子，其技术原理如下：

第一步：通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的关联因子，接着重点查看两个预后特征图谱的关联因子，我们证实了以往的报道中提到的CDH1与SBS18相关，同时，新发现了基因MUC16与SBS44密切关联，如图2所示。

第二步：探寻互斥因子，用以解析生物特征过程的异质性。通过DRP算法分析寻找与特征图谱预后因子相关的互斥的基因，如图3所示，CDH1与SBS44是相互互斥的基因，这证实了SBS44与SBS18具有不同的突变进程。

通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因，并且采用DRP算法探索这些关联基因是否存在互斥关系。结果发现，特征图谱中的预后因子SBS18相关联的基因是CDH1，而与SBS44相关联的基因是MUC16，并且CDH1与MUC16是一对互斥的基因；

基于上面的发现，一些癌相关的基因与不同的特征图谱存在着关联，因此，我们将这些关联作为一种变量构建CCA算法模型。

4)为了给五年生存率模型提供规范的输入数据，我们将SBS44与SBS18两个不同的特征图谱作为背景，构建CCA算法模型，用于计算每个基因对特征图谱的累积贡献概率，这些贡献概率形成的矩阵是五年生存率模型的输入，具体算法模型如下：

其中，C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度，而θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献。ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响。P是突变特征矩阵，S是样本贡献度矩阵。这个单元P_mkS_kn代表肿瘤样本n中突变类型m对突变特征图谱k的影响。是基因g在肿瘤样本n中的突变类型m的影响因子。

为了计算肿瘤样本n的突变数量矩阵A可设计为所有基因在各种类型上的突变数量，即为

其中，G代表基因的数量，M代表突变特征图谱的数量，和N代表基因的数量。

本实施例收集了胃癌的SNV突变数据并进行了注释，注释后的结果文件是含有基因的信息的，上述内容中所指的每个基因为这个文件中发生了非沉默突变的基因。

5)通过CCA模型计算后，获得SBS44与SBS18的基因累计贡献概率，将这些基因的累积贡献概率形成一个矩阵，我们称为CCA矩阵数据，其中行为基因属性，列为样本属性，再结合样本的临床信息，构建五年生存率模型，该模型采用随机森林算法作为模型的核心算法进行寻找与五年存活率相关的一些标志物，其模型的技术路线如图4所示。

具体步骤如下：

首先，根据生存时间与存活状态将462个样本分为4个组别，分别为：G1表示生存率大于5年，一共38个样本；G2表示生存期小于5年且死亡的，一共115个样本；G3表示生存期小于5年且存活的，共135个样本；和G4表示无生存信息的174个样本。

接着，将数据(G1 and G2)进行分割成2个独立的数据集TrainA和TestB，同时，每个分组都含有GC168与ICGC123两个独立的数据集。

然后，应用R randomForest package(4.6-7)进行分析，具体步骤如下：

(1)确定训练集A，测试集合为B；

(2)从训练集A中的每个分组分别抽取一定比例的数据进行合并，合并后作为训练集SETA集合；

(3)为了扩大特征池，训练集SETA集合分别扩充一定的倍数，成为SETB集合，然后训练集SETB集合过滤掉均值小于0.001的属性特征；

(4)采用随机森林算法进行训练训练集SETB集合，构建多组备选模型集合；

(5)针对(4)中的模型集合，每组模型分别测试评估整个训练集A，同时测试数据集B；

(6)独立进行(2)到(5)的试验步骤过程至少100次，完成后选取所有试验中AUC波动小，下分位数大于等于0.7，中位数与均值大于等于0.8的参数预选模型集合；

(7)评估选取最后的优选预测模型，要求：SETB与A的AUC不小于0.9，B的AUC不小于0.85，同时当前参数下所有选择的biomarker在100次试验中出现频率不低于50％；

最后，为了验证优选预测模型的可靠程度，我们采用了进行了以下两步的测试，第一，利用A数据集分解得到的特征图谱进行分析，先获取CCA矩阵数据，然后基于(7)中的预测模型进行评估；第二，利用B数据集分解得到的特征图谱进行分析，先获取CCA矩阵数据，然后基于(7)中的预测模型进行评估。

五年生存率模型测试结果如图5所示。

结果显示，输入特征变量为19个特定标志物时候ROC-AUC值达到最优水平，其AUC值达到了0.9173，并且确定所述突变标志物是基因两个预后因子SBS18，SBS44*和14个癌相关基因TP53、APC、CSMD3、KMT2C、MUC16、NOTCH2、ATRX、SETBP1、PIK3CA、NIN、CDH11、SRGAP3、SETD2、DCC组合而成，其中包括TP53_SBS44，TP53_SBS18，MUC16_SBS18，APC_SBS44，CSMD3_SBS44，KMT2C_SBS44，MUC16_SBS44，NOTCH2_SBS44，ATRX_SBS44，SRGAP3_SBS44，SETBP1_SBS18，PIK3CA_SBS44，NIN_SBS44，SETD2_SBS44，CDH11_SBS18，SRGAP3_SBS18，SETD2_SBS18，DCC_SBS44，DCC_SBS18，这19种结合了CCA模型与预后因子的突变标志物具有最佳的灵敏度和特异性。

五年生存率模型可称之为FYSR预测模型。

6)模型的独立验证与预后评估系统建立

获取独立的验证数据集，数据集包括GC168项目的168个样本独立分析获得的特征图谱结果和ICGC123项目的123个样本独立分析获得的特征图谱结果，对这些结果进行CCA模型分析，后面将CCA结果导入FYSR预测模型构建ROC曲线图，预测效果如图6所示。

由图6可知，本发明发现了两个预后因子SBS18、SBS44，而且基于这两个预后因子，再结合癌相关的基因构建的FYSR预测模型对独立的测试数据集进行测试也获得良好的预测结果，结果发现AUC分别值为0.894和0.8153，也就是准确率高达89％和81％以上。同时，我们利用这个模型提供便利的云端和边缘端系统预测服务，如图7所示。

综上所述，本发明的胃癌五年存活率预测模型以特定基因结合特征图谱预后因子的突变型(19个)为输入指标，构建相应的胃癌五年存活率预测模型，可以用于预防警示，指导个体调整治疗方案，利于推广普及，利于提高胃癌病人五年存活率的可能。

方法整体流程图如图8所示。

本实施例使用SBS44*和SBS18*(SBS44&18)作为基本变量的背景突变特征来构建个体FYSR预测的精确模型；同时，我们还定制了一种人工智能算法，称为累积贡献丰度(CCA)，它可以独立评估每个癌症样本中每个基因对每个特征的贡献概率，并减少样本间突变负载的干扰。与NTriPath等其他流行算法相比，CCA模型可以更好地反映基因与突变特征之间的关系，从而确保实现方便、快速、准确的个体FYSR预测的可能性。基于对462个胃癌肿瘤的CCA模型的数据分析，我们最终获得了个性化的GC FYSR(95％CI从0.84到1)，并在三个独立状态下进行了验证。与临床肿瘤分期的统计数据相比，我们的预测准确率超过90％。据我们所知，这是首次使用CCA的AI算法预测GC的FYSR，并取得了良好的预测效果。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，包括以下步骤：

基于显著性关联基因与互斥关系判断结果构建CCA算法模型；

2.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

获取若干个胃癌数据集并进行预处理的过程包括：

3.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

获取突变特征图谱的过程包括：采用RNMF方法包对处理后的若干个胃癌数据集进行非负定矩阵分解，提取对应的突变特征图谱。

4.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

所述CCA算法模型如下：

式中，C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度，θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献，ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响，P是突变特征矩阵，S是样本贡献度矩阵，P_mkS_kn代表肿瘤样本n中突变类型m对突变特征图谱k的影响，是基因g在肿瘤样本n中的突变类型m的影响因子。

5.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

构建五年生存率模型的过程包括：

6.根据权利要求5所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

获取初始训练集与初始测试集的过程包括：

7.根据权利要求6所述的胃癌预后预测的标志物、评估模型及其构建方法，其特征在于，

获得五年生存率预测模型的过程还包括：

采用随机森林算法训练第一训练集，构建多组模型集合；