CN113362894A

CN113362894A - 一种对协同致死的癌症驱动基因进行预测的方法

Info

Publication number: CN113362894A
Application number: CN202110661881.1A
Authority: CN
Inventors: 韦嘉; 吴金波
Original assignee: Shanghai Jixukang Biotechnology Co ltd
Current assignee: Shanghai Jixukang Biotechnology Co ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-07

Abstract

本发明涉及一种对协同致死的癌症驱动基因进行预测的方法，包括以下步骤：S1：从COSMIC和MetaCore中收集癌症生物标记，将其用作筛选原始癌症相关SL对的筛选器；S2：从酵母SL对中产生阳性SL对，然后进行同源基因转化；S3：基于候选基因和癌症网络内的基因组成原始候选SL对；S4：进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件；S5：对候选SL对和阳性SL对的三个特征进行了计算和归一化。该方法通过设计一个基于学习的管道，根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序，通过挖掘累积的TCGA突变和基因表达数据，以及蛋白质‑蛋白质相互作用网络中的基因特性，将传统策略整合。

Description

一种对协同致死的癌症驱动基因进行预测的方法

技术领域

本发明涉及医学研究技术领域，特别涉及一种对协同致死的癌症驱动基因进行预测的方法。

背景技术

协同致死性(SL)描述了两个单独的非致死性突变的组合导致致死性的遗传相互作用，这种现象最早由加尔文·布里奇斯(Calvin Bridges)在1922年描述，他注意到有机体果蝇(Drosophila melanogaster)中的某些突变组合具有致命性，通常，位于平行通路中的两个基因(导致细胞存活或共同的必需产物)的互相抵抗是引起协同致死性(SL)的重要模式之一。

从根本上说，癌症是一种遗传疾病，涉及许多基因突变，这些基因突变中的一些可以充当癌症中的生物标记，有些癌症治疗方面已取得显着进展，例如发现赫赛汀可治疗具有HER2扩增的乳腺癌患者，发现易瑞沙可治疗具有EGFR突变的非小细胞肺癌患者，然而，开发选择性杀死癌细胞而不损害正常细胞的药物仍然是肿瘤治疗中的一大挑战，鉴于遗传突变是癌细胞与健康细胞之间差异的基础，Hartwell第一个提出将化学和基因合成致死性筛选用于癌症治疗的建议，此后，这种做法引起癌症生物学家高度重视，因为它为肿瘤学药物提供了一个有希望的前景，例如，在患有肿瘤BRCA1/2突变的卵巢癌患者中使用奥拉帕尼靶向PARP-1酶在该领域取得了里程碑式的成功，现在siRNA和CRISPR筛选是检测SL基因对的最可靠方法。

然而，与模型生物遗传系统(例如酵母或果蝇)相比，人类细胞系统在全基因组siRNA或CRISPR筛选方面面临更大的挑战，由于这个原因，已经提出了几种计算方法来促进系统地检测癌症中的SL基因对，简而言之，这些方法根据其目标数据资源可分为三类：

(i)从酵母SL基因推导人类直系同源基因对；

(ii)使用鲁棒性功能评估基因对在癌症PPI网络中的重要性；

(iii)使用统计模型根据基因突变/转录表达数据计算互斥性。

同时，Livnat等人提出DAISY来鉴定SL基因对，这种方法结合了体细胞拷贝数改变，siRNA筛选以及细胞存活和基因共表达信息，此方法在数据驱动的SL基因对识别中取得了可喜的表现，然而，综合比较已有的几个的方法发现，在这些不同方法中，预测的SL基因对结果一致性极低，这种不一致性可能表明对于SL基因对的计算预测方法还很不成熟，此外，以前的方法都不是基于机器学习的，也就是说，SL基因对的鉴定是基于某些标准的筛选，而不是训练和预测，由于现在已经积累了一部分已知的SL基因对，对这些SL基因对的特征进行的研究有望获得重要的特征，这些特征可以定量地描述SL的常见机制。

故此，提出一种对协同致死的癌症驱动基因进行预测的方法以解决上述问题。

发明内容

本发明针对现有技术中存在的技术问题，提供一种对协同致死的癌症驱动基因进行预测的方法，该对协同致死的癌症驱动基因进行预测的方法通过设计一个基于学习的管道，根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序，通过挖掘累积的TCGA突变和基因表达数据，以及蛋白质-蛋白质相互作用网络中的基因特性，将传统策略整合，列出了潜在的SL基因对列表。

本发明解决上述技术问题的技术方案如下：一种对协同致死的癌症驱动基因进行预测的方法，包括以下步骤：

S1：从COSMIC和MetaCore中收集癌症生物标记，将其用作筛选原始癌症相关SL对的筛选器；

S2：从酵母SL对中产生阳性SL对，然后进行同源基因转化，癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用；

S3：基于候选基因和癌症网络内的基因组成原始候选SL对，其中，候选基因选自TCGA突变数据；

S4：进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件，此外，还计算突变排他性，其定义为携带SL基因对中一个突变基因之一的样品的百分比，仅选择那些具有高突变排他性的独立基因突变作为候选SL对，以进行进一步的计算；

S5：在导出到学习模型之前，对候选SL对和阳性SL对的三个特征进行了计算和归一化；

S6：使用交叉验证中获得的优化参数来检测新型SL对。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述TCGA突变和表达数据处理的流程为：

1)从UCSC癌症基因组浏览器(https://genome-cancer.ucsc.edu)下载TCGA突变和表达谱数据，该数据提供了TCGA基因组，表型和临床数据的注解和交互式可视化结果；

2)从中获得两个矩阵，矩阵的每一行代表一个基因，每一列代表一个样本，细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态。

进一步，所述阳性协同致死基因对的处理流程为：

1)从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据，其中，从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得；

2)通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对，仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对，用于下游分析。

进一步，所述癌症网络为使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。

进一步，所述候选SL基因对生成的流程为：

1)在TCGA突变数据中计算了样本中每个基因的突变率；

2)将1％用作选择候选基因的截止阈值，通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对；

3)基于突变数据测试基因A突变和基因B突变是否是独立事件，详细地，无效假设是基因A突变和基因B突变彼此独立，在2×2列联表上执行卡方检验，如下表：

其中，M代表同时携带基因A和基因B突变的样本数，N代表携带基因A突变而没有基因B突变的样品的数量，X代表携带基因B突变而没有基因A突变的样品数，Y是同时包含野生型基因A和野生型基因B的样本数，+表示突变型，-表示野生型；

卡方检验p值<＝0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的，基因A和基因B的突变之间可能存在某些关系，此外，基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X)，较高的突变排他性表明基因A和基因B更有可能是互斥的突变，在此，仅选择卡方检验P值≤0.05且突变排他性≥0.8的候选SL对进行下游处理。

进一步，所述特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。

进一步，所述基因对突变覆盖率为该基因对中至少包含一个基因突变的样品的百分比，所述驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率，DriverNet的输入数据来自两个矩阵，即突变矩阵及其对应的基因表达矩阵，两个矩阵的每一列都是一个样本，而每一行则代表样本中基因的突变状态或表达水平，DriverNet的输出是每个基因的P值，表示是基因突变的驱动因素的可能性，SL对中两个基因的较小的P值转化为负log10(P值)，表示该对驱动突变的强度。

进一步，所述网络信息中心为如果G指提到的癌症网络，并且G’指去除基因A和基因B后的癌症网络，那么基因A和B基因的网络信息中心性可以定义为：

其中，E(G)是网络的效率，可以在以下公式中计算：

如果在网络中，基因i跟基因j有边连接，d_ij表示在网络中从基因i到基因j的最短路径长度，否则，d_ij等同于D(G)+1，D(G)代表癌症网络的直径，其定义为癌症网络中所有最短路径的最大距离，最后对上述三个特征进行归一化转换成0-1之间数值，归一化转换公式如下：

其中，x为特征原始值，x’为特征转化值。

进一步，所述半监督排名模型为在两个数据集中，一个真实的样本组和一个未知的样本组(背景)，根据未知样本组中样本与真实样本组中的相关性进行排名，具体的：

输入为一系列代表SL对的点X＝(X₁…X_q，X_q+1…X_n)，前q个点为真实的SL对，其他q个为候选对，初始分数y定义为(1…1，0…0)(真实的SL对值为1，候补对为0)，定义f⁰＝y，α为算法的一个参数；

输出为X的排序列表，在列表里排行越靠前的越可能是SL基因，如下：

A、定义相似性矩阵W_ij＝1-cos(i，j)，W_ii＝0；

B、计算L＝D^-1/2WD^-1/2，D为对角矩阵

C、迭代方程直至收敛f^t+1＝aLf+(1-α)y，α取值为[0，1)；

D、令f^*为收敛函数f^t，并将X中所有点按其f^*值的降序排列，故公式为：

f*＝(1-α)(I-αL)^(-1)y

进一步，所述交叉验证为对于每种情况，阳性SL对被分为五个部分。其中四个被用作训练集，而其余部分则被用于评估，接下来，将阳性SL对改组10次，总体性能由这10个改组事件的平均结果确定，所述归一化用于计算预测结果的排序准确性，公式如下：

其中，Z是归一化常数，i是候选SL对的排名，reli是候选SL对的相关性值，如果候选SL对属于正SL对，则将reli设置为1，否则将reli设置为0，p是最大位置，此外，前n名排名中的SL对的正富集也用于评估预测性能，同时，利用了超几何测试，公式如下：

其中，k为前n个排名结果中包含的阳性SL对的数量，N为候选SL对数量，M为阳性SL对数量。

与现有技术相比，本申请的技术方案具有以下有益技术效果：

该对协同致死的癌症驱动基因进行预测的方法，通过设计一个基于学习的管道，根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序，通过挖掘累积的TCGA突变和基因表达数据，以及蛋白质-蛋白质相互作用网络中的基因特性，将传统策略整合，列出了潜在的SL基因对列表。

附图说明

图1为本发明一种对协同致死的癌症驱动基因进行预测的方法的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定发明的范围。

请参阅图1，本实施例中的一种对协同致死的癌症驱动基因进行预测的方法，包括以下步骤：

S6：使用交叉验证中获得的优化参数来检测新型SL对。

其中，TCGA突变和表达数据处理方式为从UCSC癌症基因组浏览器(https://genome-cancer.ucsc.edu)下载了TCGA突变和表达谱数据，该数据提供了TCGA基因组，表型和临床数据的注解和交互式可视化结果，从中获得了两个矩阵，矩阵的每一行代表一个基因，每一列代表一个样本，细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态，最后，在本方法中使用了来自11个癌症的数据，其中包含基因表达矩阵和相应的基因突变矩阵。

阳性协同致死基因对为从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据，从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得，然后，通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对，仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对，用于下游分析，为了尽可能降低假阳性率，对于每个同源人类SL基因对，检查了PubMed文献中提供的证据，最后，在人类细胞系或动物模型文献中鉴定出399对阳性SL对具有协同致死性的证据。

癌症网络为从HPRD下载了307，066个蛋白质-蛋白质相互作用对，然后，使用MetaCore和COSMIC中的癌症生物标记物对其进行过滤，在MetaCore中搜索了关键词“癌症，肿瘤，癌症”，并检索了4，296个与癌症相关的生物标记，同时还从COSMIC网站癌症基因普查项目中下载了收集到的507个驱动程序突变基因，该项目中的所有这些基因突变均已被证明与癌症有因果关系，然后，对于每种蛋白质-蛋白质相互作用，只保留两种蛋白质都包含在MetaCore癌症生物标记或COSMIC癌症基因普查项目中的蛋白质对，最后，获得了11，925个蛋白质-蛋白质相互作用对，对应于2，869个单独的蛋白质，可以使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。

候选SL基因对生成为在TCGA突变数据中计算了样本中每个基因的突变率，在此，将1％用作选择候选基因的截止阈值，通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对，随后，基于突变数据测试了基因A突变和基因B突变是否是独立事件，详细地，无效假设是基因A突变和基因B突变彼此独立，在2×2列联表上执行卡方检验，如下表：

其中，M代表同时携带基因A和基因B突变的样本数，N代表携带基因A突变而没有基因B突变的样品的数量，X代表携带基因B突变而没有基因A突变的样品数，Y是同时包含野生型基因A和野生型基因B的样本数，+表示突变型，-表示野生型。

特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。

其中，基因对突变覆盖率为定义为该基因对中至少包含一个基因突变的样品的百分比。

驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率，DriverNet的输入数据来自两个矩阵，即突变矩阵及其对应的基因表达矩阵，两个矩阵的每一列都是一个样本，而每一行则代表样本中基因的突变状态或表达水平，DriverNet的输出是每个基因的P值，表示是基因突变的驱动因素的可能性，SL对中两个基因的较小的P值转化为负log10(P值)，表示该对驱动突变的强度。

网络信息中心为如果G指上文提到的癌症网络，并且G’指去除基因A和基因B后的癌症网络，那么基因A和B基因的网络信息中心性可以定义为：

其中E(G)是网络的效率，可以在以下公式中计算：

如果在网络中，基因i跟基因j有边连接，d_ij表示在网络中从基因i到基因j的最短路径长度(由python包’networkx’中的“shortest_path_length”方法计算得出)，否则，di_j等同于D(G)+1，D(G)代表癌症网络的直径，其定义为癌症网络中所有最短路径的最大距离(由python包’networkx’中的“diameter”方法计算得出)，最后对上述三个特征进行归一化转换成0-1之间数值，归一化转换公式如下：

其中，x为特征原始值，x’为特征转化值。

半监督排名模型为在本方法中使用了一种被称之为流形排名的算法：即在两个数据集中，一个真实的样本组和一个未知的样本组(背景)，根据未知样本组中样本与真实样本组中的相关性进行排名。

A、定义相似性矩阵W_ij＝1-cos(i，j)，W_ii＝0；

B、计算L＝D-^1/2WD-^1/2，D为对角矩阵

C、迭代方程直至收敛f^t+1＝aLf^t+(1-α)y，α取值为[0，1)；

D、令f*为收敛函数f^t，并将X中所有点按其f*值的降序排列，故公式为：

f*＝(1-α)(f-aL)^(-1)y

五组交叉十次验证：对于每种情况，阳性SL对被分为五个部分，其中四个被用作训练集，而其余部分则被用于评估，接下来，将阳性SL对改组10次，总体性能由这10个改组事件的平均结果确定。

排序结果评估：归一化折现累计收益(Normalized discounted cumulativegain，NDCG)原本用于信息检索领域网络搜索引擎算法的评估，计算文档在结果列表里面的有用程度，在本技术中将其用于计算预测结果的排序准确性，公式如下：

本发明创造与现有技术相比，所具有的优点和积极效果：

本方法从涵盖11种癌症的前10个结果中预测了107个潜在的SL新基因对，使用癌细胞系数据库CCLE或NCI60中的药物敏感性信息来验证4个SL对：mTOR-TP53；VEGFR2-TP53；EGFR-TP53；ATM-PRKCA，此外，siRNA敲低实验的结果表明，在野生型TP53和突变型TP53的癌细胞之间，mTOR或EGFR siRNA敲低的细胞生长存在显着差异，TP53突变可作为靶向mTOR或EGFR的药物用于癌症治疗的生物标志物，更有希望的是，最近的一项研究已经提出TP53作为生物标志物，可用于预测接受厄洛替尼(EGFR抑制剂)治疗的胰腺癌患者的无进展生存期(PFS)显示了本预测方法的潜力。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，包括以下步骤：

S6：使用交叉验证中获得的优化参数来检测新型SL对。

2.根据权利要求1所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述TCGA突变和表达数据处理的流程为：

3.根据权利要求2所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述阳性协同致死基因对的处理流程为：

4.根据权利要求3所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述癌症网络为使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。

5.根据权利要求4所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述候选SL基因对生成的流程为：

1)在TCGA突变数据中计算了样本中每个基因的突变率；

6.根据权利要求5所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。

7.根据权利要求6所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述基因对突变覆盖率为该基因对中至少包含一个基因突变的样品的百分比，所述驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率，DriverNet的输入数据来自两个矩阵，即突变矩阵及其对应的基因表达矩阵，两个矩阵的每一列都是一个样本，而每一行则代表样本中基因的突变状态或表达水平，DriverNet的输出是每个基因的P值，表示是基因突变的驱动因素的可能性，SL对中两个基因的较小的P值转化为负log10(P值)，表示该对驱动突变的强度。

8.根据权利要求7所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述网络信息中心为如果G指提到的癌症网络，并且G’指去除基因A和基因B后的癌症网络，那么基因A和B基因的网络信息中心性可以定义为：

其中，E(G)是网络的效率，可以在以下公式中计算：

其中，x为特征原始值，x’为特征转化值。

9.根据权利要求8所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述半监督排名模型为在两个数据集中，一个真实的样本组和一个未知的样本组(背景)，根据未知样本组中样本与真实样本组中的相关性进行排名，具体的：

A、定义相似性矩阵W_ij＝1-cos(i，j)，W_ii＝0；

B、计算L＝D^-1/2WD^-1/2，D为对角矩阵

C、迭代方程直至收敛f^t+1＝aLf^t+(1-α)y，α取值为[0，1)；

f*＝(1-a)(I-αL)^(-1)y。

10.根据权利要求9所述的一种对协同致死的癌症驱动基因进行预测的方法，其特征在于，所述交叉验证为对于每种情况，阳性SL对被分为五个部分，其中四个被用作训练集，而其余部分则被用于评估，接下来，将阳性SL对改组10次，总体性能由这10个改组事件的平均结果确定，所述归一化用于计算预测结果的排序准确性，公式如下：