CN112259163A

CN112259163A - 基于生物网络和亚细胞定位数据识别癌症驱动模块方法

Info

Publication number: CN112259163A
Application number: CN202011172944.9A
Authority: CN
Inventors: 杨冀帆; 吴璟莉; 李高仕
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-22
Anticipated expiration: 2040-10-28
Also published as: CN112259163B

Abstract

本发明公开了基于生物网络和亚细胞定位数据识别癌症驱动模块方法，包括如下步骤：1）输入数据；2）重建无向边缘加权PPI网络；3）识别驱动程序模块；4）初始化；5）记录最佳个体；6）进入；7）使用五个突变算子产生；8）选择；9）完成驱动模块识别。这种方法克服了传统PPI网络中的假阳性或假阴性的不足，提高了在PPI网络上识别癌症的驱动模块的准确性。

Description

基于生物网络和亚细胞定位数据识别癌症驱动模块方法

技术领域

本发明涉及生物信息技术与智能优化算法领域，具体是一种基于生物网络和亚细胞定位数据识别癌症驱动模块方法。

背景技术

随着深度测序技术的飞速发展，诸如癌症基因组图谱(TCGA)和国际癌症基因组联合会(ICGC)等大规模的癌症基因组计划已经产生了大量的癌症基因组数据。所积累的大量数据使得通过使用计算方法来系统地检测引起癌症的体细胞突变，即驾驶员突变成为现实。

在识别驱动程序突变的早期研究中，设计了计算方法来识别单个驱动程序基因。已经注意到，不同基因座处的突变可能导致相同的疾病，即使基因组突变起源于同一癌症，它们之间的重叠也很少。这种突变异质性可能表达了一种基本的分子机制，致癌相关基因(即驱动基因)通常参与相同的细胞信号传导或调控途径。当途径中的任何一种驱动基因发生突变时，就会发生癌变。因此，驱动路径或驱动模块的识别已成为近年来有吸引力的研究课题。

驱动模块识别的方法可以分为两类，分别是从头识别和基于先验知识的识别方法。从头识别方法通常只是采用遗传数据来揭示新的遗传相互作用和致癌途径或功能模块。因为存在大量突变基因的组合，所以这种方法通常通过使用基于突变频率的预过滤来降低固有的计算复杂性，并且可能会忽略某些包含稀有突变的途径。现有的基于知识的方法除了利用基因组数据外，还利用了诸如基因/蛋白质之间的相互作用或已知途径等知识。本文中的方法属于基于先验知识的识别方法。

近年来，已有许多基于知识的现有方法，可以将其大致分为两个子类别。第一个子类别方法使用现有路径和网络中的固有拓扑结构，如Hotnet，Hotnet2，HierarchicalHotnet，Mutex和MEXCOwalk等等的方法。Hotnet，Hotnet2和Hierarchical Hotnet方法使用绝缘的热扩散过程，该过程考虑了单个基因的突变频率以及相应蛋白质之间相互作用的已知拓扑，从而获得了可确定驱动路径的扩散矩阵。Mutex方法目标是搜索在大型基因网络中具有共同下游目标的相互排斥的基因组，该网络的相互作用是从三个数据库中收集的。MEXCOwalk方法通过使用体细胞突变谱将蛋白质-蛋白质相互作用(Protein-proteininteraction network，简称PPI)网络转换为顶点加权图和边缘加权图，并采用基于随机游走的方法来提取癌症的驱动程序模块。第二个子类别方法尝试重建或调整现有路径和网络中的拓扑结构。MEMo方法从交互网络或功能关系图创建相似度图，并检查从相似度图中提取的最大团的互斥性。MEMCover方法重建功能交互网络，以便其交互属于给定的互斥类，它利用相互排斥的原理来识别跨多种癌症类型失调的子网。

尽管现有的通路和网络可以为识别驱动通路或模块提供一些重要信息，但是由于高通量实验的局限性，它们之间仍然存在许多假阳性或假阴性相互作用。大量的噪声数据可能会对识别产生负面影响。因此，需要一种克服蛋白质相互作用网络中的假阳性或假阴性，以便更准确的在蛋白质相互作用网络中识别癌症的驱动模块的新方法，解决现有方法无法满足本要求的不足。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于生物网络和亚细胞定位数据识别癌症驱动模块方法。这种方法克服了传统PPI网络中的假阳性或假阴性的不足，提高了在PPI网络上识别癌症的驱动模块的准确性。

实现本发明目的的技术方案是：

基于生物网络和亚细胞定位数据识别癌症驱动模块方法，包括如下步骤：

1)输入数据：输入体细胞突变数据矩阵A_m×n，一个PPI网络P＝(V,E)和亚细胞定位数据L＝(L₁,L₂,…,L_|V|)；输入数据的格式和含义如下：体细胞突变数据矩阵A_m×n中，行代表一组癌症样本S＝{s_i|i＝1,2,…,m}，列代表一组基因G＝{g_j|j＝1,2,...,n}，矩阵内的每个格子a_ij(i＝1,2,...,m,j＝1,2,...,n)的值为1或0，a_ij的值表示基因g_j是否在样本s_i中发生突变；PPI网络P＝(V,E)，对于网络中的每个顶点u_i∈V代表一个基因g_i在网络中相应的蛋白质，网络中的每个无向边(u_i，u_j)∈E表示基因g_i和g_j对应的蛋白质之间的相互作用；亚细胞定位数据L＝(L₁,L₂,…,L_|V|)，其中L_j表示PPI网络P＝(V,E)中基因g_j(j＝1,2,…,|V|)对应的亚细胞定位位点列表；

2)重建无向边缘加权PPI网络：对于PPI网络P＝(V,E)，使用步骤1)中的体细胞突变数据矩阵A_m×n和亚细胞定位数据L＝(L₁,L₂,…,L_|V|)重建一个新的无向边缘加权PPI网络P_l＝(V_l,E_l,W_l)，重建过程为：先让

检查每个边缘e_ij∈E(e_ij＝(g_i,g_j),g_i,g_j∈V_l)，E_l由以下公式生成：

然后对于每个e_ij∈E_l(e_ij＝(g_i,g_j),g_i,g_j∈V_l)计算W_l，W_l是e_ij的边权值，边权值为

该边权值反映基因组

的覆盖率和相互排斥之间的关系，其中

表示

的覆盖率，

表示

的互斥度；

3)识别驱动程序模块：根据步骤2)中构建的无向边缘加权PPI网络P_l＝(V_l,E_l,W_l)，将参数K,λ，N，mg，mt和步骤2)中构建的无向边缘加权PPI网络P_l＝(V_l,E_l,W_l)输入到重新设计的单亲遗传算法中，输入算法中的参数的功能如下：参数K是控制输出的模块规模大小，参数λ是控制输出模块内基因的相互作用的强弱，参数N是设置单亲遗传算法生成的种群规模大小，参数mg是设置单亲遗传算法的最大迭代次数，参数mt是算法中提前跳出迭代的阈值；然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块

4)初始化：首先根据个体的表示生成初始的种群，初始染色体X＝{x₁,x₂,…,x_K|x_i∈V_l}由如下生成：首先初始化X＝{x₁}，其中x₁表示从集合V_l中随机选择的基因；然后在集合X和V_l\X之间搜索边缘集合δ(X)，其中δ(X)＝{e_ij|e_ij∈E_l,x_i∈X,x_j∈V_l\X}；最后随机选择三种更新X方法的任意一种去更新X，其中这三种方法分别为：(a)对与染色体中基因相连的基因进行检测，选择边权值最大的相连基因加入到染色体中，直到染色体内的基因数与K值相同；(b)对与染色体中基因相连的基因进行检测，选取在无向边缘加权PPI网络P_l＝(V_l,E_l,W_l)中最大出入度的相连邻居加入到染色体中，直到染色体内的基因数与K值相同；(c)采用完全随机的方式生成个体，从相连的邻居中随机选择一个加入到个体中，不考虑其他因素，直到生成了N个个体，种群初始化完成；

5)记录最佳个体：迭代变量gen和t设置为零，让best记录最佳个体，即适应值函数得分最高的个体，

适应值函数为

其中

其中N₁计算模块

中直接相邻基因大于或等于1的基因数，N₂计算满足以下两个条件的顶点对的数量：(a)一对顶点之间的最短路径超过了给定的路径长度限制λ；(b)一对顶点之间没有路径；

6)进入：gen＝gen+1，将best个体放入pop_gen，并使用轮盘赌选择算子从pop_gen-1中选择N-1个个体进入pop_gen；

7)使用五个突变算子产生：对于pop_gen中的每个

(i＝1，2，…，N)inpop_gen进行如下操作：如果

则通过在

上随机实现五个突变算子之一来产生

否则依次对

进行5个突变算子，将获得的适应度最大的新个体保留为

8)选择：如果

则

t＝0；若

则t＝t+1；

9)完成驱动模块识别：重复步骤6)至步骤8)，直到gen＝＝mg或t＝＝mt，则终止迭代，输出最优模块

完成了在基于亚细胞定位数据降噪后的PPI网络中对大小规模为K的癌症驱动模块的识别。

步骤7)中所述的五个突变算子分别为：

a.单点突变算子：对于个体X_i，随机删除个体中的一个基因，从个体X_i中剩余的基因的邻居的集合中，选取与个体X_i连接边数最多的邻居加入到个体中，形成一个新的个体并返回到种群中；

b.两点突变算子：和上一个单点突变算子类似，唯一改变的就是从个体中删除的基因数变为2，新加入的连接边数最多的邻居数也为2；

c.度-权重突变算子：是本方法自己设计的突变算子，首先将个体X_i中度数最小的基因(在PPI网络G中)从个体中删除，然后从与个体X_i中的基因相连的邻居基因中选取一个边权值最大的基因加入到个体中，形成一个新的个体返回；

d.度-度突变算子：先将个体中度数最小的基因(在PPI网络G中)从个体中删除，然后从与个体X_i中剩余基因相连的邻居中选取一个与个体X_i连接度最高的邻居基因加入到个体中，形成新的个体返回；

e.权重-权重突变算子：先将个体X_i中与个体内其他基因的边权和最小的基因从个体中删除，从与个体内剩余基因相连的网络节点且不在个体中的节点中选取一个边权和最大的节点加入到个体中，形成新的个体并返回。

本技术方案方法具有以下优点：

(1)结合了亚细胞定位数据，用于提高PPI网络中边的可信度，去除网络中的噪声，提高识别出来模块内基因间互作性的准确度

(2)提出了一种改进的数学模型，用于提取泛癌数据在PPI网络中的驱动通路模块(体现在单亲遗传算法的适应值函数上)。该模型引入了跳数和不连通的惩罚因子，极大的避免了识别出来模块内的基因出现不连通和基因间的互相作用不强的情况，并通过引入连通因子，通过模型去让识别出来的模块尽可能是连通的。

(3)通过引入五种新的突变算子，提出了求解该模型的遗传算法，更有效率的识别癌症驱动模块。

这种方法克服了传统PPI网络中的假阳性或假阴性的不足，提高了在PPI网络上识别癌症的驱动模块的准确性。

附图说明

图1为实施例2中设置两个控制模块大小参数K_min和K_max的输出结果模块图；

图2为实施例2中设置参数K_min和K_max的输出结果基因列表图。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

实施例：

1)输入数据：输入体细胞突变数据矩阵A_m×n，一个PPI网络P＝(V，E)和亚细胞定位数据L＝(L₁，L₂，...，L_|V|)；输入数据的格式和含义如下：体细胞突变数据矩阵A_m×n中，行代表一组癌症样本S＝{s_i|i＝1，2，...，m}，列代表一组基因G＝{g_j|j＝1，2，...，n}，矩阵内的每个格子a_ij(i＝1，2，...，m，j＝1，2，...，n)的值为1或0，a_ij的值表示基因g_j是否在样本s_i中发生突变；PPI网络P＝(V，E)，对于网络中的每个顶点u_i∈V代表一个基因g_i在网络中相应的蛋白质，网络中的每个无向边(u_i，u_j)∈E表示基因g_i和g_j对应的蛋白质之间的相互作用；亚细胞定位数据L＝(L₁，L₂，...，L_|V|)，其中L_j表示PPI网络P＝(V，E)中基因g_j(j＝1，2，...，|V|)对应的亚细胞定位位点列表；

2)重建无向边缘加权PPI网络：对于PPI网络P＝(V，E)，使用步骤1)中的体细胞突变数据矩阵A_m×n和亚细胞定位数据L＝(L₁，L₂，...，L_|V|)重建一个新的无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)，重建过程为：先让

检查每个边缘e_ij∈E(e_ij＝(g_i，g_j)，g_i，g_j∈V_l)，E_l由以下公式生成：

然后对于每个e_ij∈E_l(e_ij＝(g_i，g_j)，g_i，g_j∈V_l)计算W_l，W_l是e_ij的边权值，边权值为

该边权值反映基因组

的覆盖率和相互排斥之间的关系，其中

表示

的覆盖率，

表示

的互斥度；

3)识别驱动程序模块：根据步骤2)中构建的无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)，将参数K，λ，N，mg，mt和步骤2)中构建的无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)输入到重新设计的单亲遗传算法中，输入算法中的参数的功能如下：参数K是控制输出的模块规模大小，参数λ是控制输出模块内基因的相互作用的强弱，参数N是设置单亲遗传算法生成的种群规模大小，参数mg是设置单亲遗传算法的最大迭代次数，参数mt是算法中提前跳出迭代的阈值；然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块

4)初始化：首先根据个体的表示生成初始的种群，初始染色体X＝{x₁，x₂，...，x_K|x_i∈V_l}由如下生成：首先初始化X＝{x₁}，其中x₁表示从集合V_l中随机选择的基因；然后在集合X和V_l\X之间搜索边缘集合δ(X)，其中δ(X)＝{e_ij|e_ij∈E_l，x_i∈X，x_j∈V_l\X}；最后随机选择三种更新X方法的任意一种去更新X，其中这三种方法分别为：(a)对与染色体中基因相连的基因进行检测，选择边权值最大的相连基因加入到染色体中，直到染色体内的基因数与K值相同；(b)对与染色体中基因相连的基因进行检测，选取在无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)中最大出入度的相连邻居加入到染色体中，直到染色体内的基因数与K值相同；(c)采用完全随机的方式生成个体，从相连的邻居中随机选择一个加入到个体中，不考虑其他因素，直到生成了N个个体，种群初始化完成；

适应值函数为

其中

其中N₁计算模块

7)使用五个突变算子产生：对于pop_gen中的每个

(i＝1，2，…，N)in pop_gen进行如下操作：如果

则通过在

上随机实现五个突变算子之一来产生

否则依次对

进行5个突变算子，将获得的适应度最大的新个体保留为

8)选择：如果

t＝0；若

则t＝t+1；

步骤7)中所述的五个突变算子分别为：

具体的：

实施例1：

步骤1)中输入的PPI网络为HINT+HI2012，包含了12个癌症的体细胞突变数据；亚细胞定位数据中参数K＝14，λ＝2，N＝100，mt＝30，mg＝200；

步骤3)使用单亲遗传算法提取一个大小为K＝14的癌症驱动模块；

步骤4)输出的基因模块为：TP53，PTEN，ATM，MDM4，E2F1，ITCH，MTA2，MAPK1，HDAC1，MDM2，HIF1A，UBC，TP73，CDKN1A；

其余同上述操作步骤。

实施例2：

步骤1)中输入的PPI网络为HINT+HI2012，包含了12个癌症的体细胞突变数据；亚细胞定位数据中参数K_max＝14，K_min＝3，λ＝2，N＝100，mt＝30，mg＝200；

步骤3)中单亲遗传算法K_max-K_min+1次，并在第i次(i＝1，2，…，K_max-K_min+1)识别大小为K_max-i+1的驱动程序模块，然后提取的基因总数为

步骤4)输出的驱动程序模块的结果图如图1所示，输出的模块基因列表如图2所示。

其余步骤同实施例1。

Claims

1.基于生物网络和亚细胞定位数据识别癌症驱动模块方法，其特征在于，包括如下步骤：

2)重建无向边缘加权PPI网络：对于PPI网络P＝(V，E)，使用步骤1)中的体细胞突变数据矩阵A_m×n和亚细胞定位数据L＝(L₁，L₂，...，L_|V|)重建一个新的无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)，重建过程为：先让V_l＝V，

该边权值反映基因组

的覆盖率和相互排斥之间的关系，其中

表示

的覆盖率，

表示

的互斥度；

4)初始化：首先根据个体的表示生成初始的种群，初始染色体X＝{x₁，x₂，...，x_K|x_i∈V_l}由如下生成：首先初始化X＝{x₁}，其中x₁表示从集合V_l中随机选择的基因；然后在集合X和V_l\X之间搜索边缘集合δ(X)，其中δ(X)＝{e_ij|e_ij∈E_l，x_i∈X，x_j∈V_l\X}；最后随机选择三种更新X方法的任意一种去更新X，其中这三种方法分别为：(a)对与染色体中基因相连的基因进行检测，选择边权值最大的相连基因加入到染色体中，直到染色体内的基因数与K值相同；(b)对与染色体中基因相连的基因进行检测，选取在构建的无向边缘加权PPI网络P_l＝(V_l，E_l，W_l)中最大出入度的相连邻居加入到染色体中，直到染色体内的基因数与K值相同；(c)采用完全随机的方式生成个体，从相连的邻居中随机选择一个加入到个体中，不考虑其他因素，直到生成了N个个体，种群初始化完成；