CN112712851A

CN112712851A - 一种基于递归社区检测的癌症驱动模块预测方法

Info

Publication number: CN112712851A
Application number: CN202110051412.8A
Authority: CN
Inventors: 马鹤菡; 王树林
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-04-27

Abstract

本发明生物信息学领域，公开了一种基于递归社区检测的癌症驱动模块预测方法，通过过滤和筛选处理突变数据，结合数据构建网络，在目标网络进行加权方案的设定和计算。接着采取递归社区检测的方法进行癌症驱动模块的初步划分。然后对划分后的网络重新构建，基于大小和连通性标准划分种子叶子模块对子网络进行拆分扩展，最终获得癌症驱动模块的集合。本发明实现了对癌症驱动模块的有效预测，具有十分重要的推广应用价值。

Description

一种基于递归社区检测的癌症驱动模块预测方法

技术领域

本发明涉及一种基于递归社区检测的癌症驱动模块预测方法，属于生物信息学领域。

背景技术

癌症是一种基因组疾病，随着高通量测序技术的迅速发展，对肿瘤的体细胞突变进行大规模测量成为了可能，产生了大量的癌症基因组数据。破译这些数据给生物信息学带来了巨大的机遇和挑战。其中一个关键挑战是区分驱动突变、基因以及乘客的通路。癌症基因组学研究的目标是识别所有与癌症相关的基因，并对其在癌症发生和发展中的作用进行可靠的解释。同时，泛癌数据的收集为阐明不同癌症类型的共同特征创造了机会。生物学通路和网络信息，促进了癌症驱动突变通路的检测。

目前生物信息学识别癌症驱动模块的方法主要有三类：一是使用公共数据库中已知癌症通路的方法，由于该类方法是基于已知的癌症通路而进行的，因此不能用来预测新的癌症通路，并且忽略了不同通路之间的串联的扰动，基本运用于解释和评估基因列表。二是基于网络的方法，该类方法通过整合不同类型相互作用的大型生物网络来分析整个网络中的相互作用。然而，这种方法会破坏特定的肿瘤表型，导致很难在不同的癌症特征中分离出组织特异性特征。最后一类方法结合了网络分析和突变的融合方法，可以在不使用任何先验知识的情况下以无偏见的方式筛选出候选癌症基因和通路。因此，有必要发明一种将多个数据源结合起来，可以改进对癌症基因组数据的预测和解释的识别癌症驱动模块的方法，即基于递归社区检测来预测癌症的驱动模块的方法，该方法既结合了多种形式的连接信息，又考虑到网络连通性和疾病驱动模块的互斥与覆盖特性，来识别癌症驱动模块，提高正常和肿瘤病例分类的准确性。

发明内容

针对上述问题，本发明提供一种基于递归社区检测的癌症驱动模块预测方法。

为了实现上述目的，本发明的解决方案是：

第一步、数据的预处理：可用样本的体细胞突变数据和PPI网络数据作为输入数据。首先，对体细胞突变数据进行预处理，去除所有肿瘤类型中高突变和低表达的基因，然后，计算基因g_i的突变频率，计算方法是对于基因g_i至少有一个单核苷酸变异或拷贝数变异的样本数除以所有样本的数目。

第二步、用输入数据构造网络：设Si为突变基因g_i的样本集，对于PPI网络G＝(V,E)，其中每个顶点u_i(u_i∈V)表示一个基因g_i产生的相应蛋白质，每个无向边＝(u_i，u_j)∈E表示与基因g_i、g_j相对应的蛋白质之间的相互作用。定义集合

表示包含一组基因的模块，结合互斥性和覆盖性，M的相互分数

覆盖分数

第三步、构造加权的目标网络：构造有向加权图G_w，包含顶点和边的权值。对每个顶点 g_i(g_i∈V)分配权重，权重对应基因的突变频率，对于每条边，(g_i,g_j)表示为无向边，在两个方向生成有向边，分别为[g_i,g_j]和[g_j,g_i]。定义W′(g_i,g_j)为无向边(g_i,g_j)的权重，有向边[g_i,g_j] 的权重为W[g_i,g_j]。先在顶点邻域内计算互斥性分数，N(g_i)表示g_i的闭邻域，

互斥性对权重的影响分数MEX_n(g_i,g_j)取MEX(N(g_i))和MEX(N(g_j))的平均数。计算无向边(g_i,g_j)的权重，w’(g_i,g_j)＝MEX_n(g_i,g_j)×CO({g_i})×CO({g_j})，互斥性对权重的影响分数作为一个乘积计算，以减少单个基因在较大覆盖范围内影响入射边权重的机会，并且计算g_i上所有入射边的权重，得到

第四步、癌症驱动模块的预测：对于构造好的网络G_w，运用递归的Louvain社区检测算法。递归的Louvain社区检测算法RL(Recursive Louvain)用python社区检测的Louvain 方法作为基本模块，先在G_w上调用Louvain社区检测，然后对子社区进行判断，如果子社区包含10个以上的节点，就把该子社区作为原始网络的子图再次调用Louvain社区检测。直到所有的子社区都被分解成10个或10个以下的基因，或者在三个以上的社区中发现了同一个基因，获得G_d。然后进行精确的癌症驱动模块的预测，把G_d中的强连接组件(SCCs)作为基础元件。创建一组初始的候选模块，迭代地从G_d中删除最小权值边，将G_d的SCCs添加到初始模块集P中，从P中删除所有小于min_size的模块，直到P中的基因总数减少到total_genes。把导出子图中的任意顶点的最大输出度定义为split_size，对大于split_size的初始候选模块M_q都进行拆分，输出度小于min_size的组件为叶子模块，而在这两种大小之间的其他组件作为种子模块。提取满足大小和连通性标准的种子模块，用小叶子模块扩展它们。在扩展阶段,取叶子模块与种子模块合并，使得种子模块在G_d(M_q)中具有最大的连接数，获得模块集合P，即癌症驱动模块的集合。

本发明的有益效果是：提供了一种癌症驱动模块的预测方法，有效提出了基于递归社区检测的癌症驱动模块预测方法，运用了社区检测并结合互斥性与覆盖性和网络连接性来识别癌症驱动模块，并且在恢复已知癌症基因(包括罕见突变的基因)、富集特定癌症类型的方面表现优异。本发明借助基于拓扑结构的模块检测方法，有效减少了复杂生物网络内未知关联对癌症驱动模块识别工作的干扰和影响。

附图说明

图1为本发明“一种基于递归社区检测的癌症驱动模块预测方法”的整体框架示意图。

具体实施方式

本发明提供一种基于递归社区检测的癌症驱动模块方法，如图1所示，样本突变数据和PPI 网络数据作为输入，通过数据处理，构造癌症驱动基因网络，预测癌症驱动模块，获得癌症驱动模块的集合。

下面结合实例描述本发明的具体实施步骤：

1、原始突变数据处理：

首先，对TCGA中的体细胞突变数据进行预处理，去除所有肿瘤类型中高表达和低表达的基因，筛选后的数据集中包含了3110份样本中11565个基因的体细胞突变数据。然后，用在基因g_i上至少有一个单核苷酸变异或拷贝数变异的样本数除以所有样本的数目，计算出基因g_i的突变频率，用于构造网络：

2、构造癌症驱动基因网络：

对PPI网络G＝(V,E)，每个顶点u_i∈V表示一个基因g_i在网络中产生相应的蛋白质，每个无向边(u_i,u_j)∈E表示对应于基因g_i、g_j的蛋白质之间的相互作用，设Si是突变基因g_i的样本集合。构造一个有向加权图G_w，包含顶点和边的权值。给每个顶点g_i∈V分配权重，w(g_i)＝CO({g_i})，权重对应基因的突变频率，对于每条边(g_i,g_j)表示为无向边，在两个方向生成有向边，分别为[g_i,g_j]和[g_j,g_i]。边[g_i,g_j]的权重表示为 W[g_i,g_j]，反映有向边[g_i,g_j]的权重。

然后，在顶点邻域内计算互斥性分数，N(g_i)表示g_i的闭邻域，即

表示包含一组基因的模块，定义M的相互分数

覆盖分数

互斥排他性对权重的贡献MEX_n(g_i,g_j)取 MEX(N(g_i))和MEX(N(g_j))的平均数。计算无向边(g_i,g_j)的权重，w’(g_i,g_j)＝ MEX_n(g_i,g_j)×CO({g_i})×CO({g_j})，其中互斥性对权重的贡献作为一个乘积计算，以减少单个基因在较大覆盖范围内影响入射边权重的机会。计算g_i上所有入射边的权重，得到

3、预测癌症驱动模块：

首先，初步的癌症模块预测，运用递归的Louvain社区检测算法，先对构造好的网络G_w运行Louvain社区检测，对获得的子社区进行判断，对于未达到目标大小的子社区继续调用Louvain社区检测。如果子社区包含10个以上的节点，就提取相应的网络作为原始网络的子图将其添加到网络列表中，对列表中的子图递归的调用 Louvain社区检测，直到所有的社区都被分解成包含10个或更少基因的社区，或在三个以上的社区中发现同一个基因，从而获得G_d。

然后,进行进一步的癌症驱动模块的预测，把G_d中的强连接组件(SCCs)作为基础元件。创建一组初始的候选模块，迭代地从G_d中删除最小权值边，将G_d的SCCs添加到初始模块集P中，从P中删除所有小于min_size的模块，直到P中的基因总数减少到total_genes。把导出子图中的任意顶点的最大输出度定义为split_size，对输出度大于split_size的初始候选模块M_q进行拆分和扩展，输出度小于min_size的组件作为叶子模块，而位于这两种大小之间的其他组件作为种子模块。提取满足大小和连通性标准的种子模块，用叶子模块扩展它们。在扩展阶段,叶模块与种子模块合并，使得种子模块在G_d(M_q)中具有最大的连接数，获得模块输出集P，即癌症驱动模块的集合。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制。参照该实施例的说明，本领域的普通技术人员应该可以理解并对本发明的技术方案进行相关的修改或替换，而不脱离本发明的实质和范围。

Claims

1.一种基于递归社区检测的癌症驱动模块预测方法，其特征在于：

(1)对可用样本的突变数据和PPI网络数据进行预处理，预处理包括去除所有肿瘤类型中高突变和低表达的基因和计算基因g_i的突变频率；

(2)对突变数据和PPI网络数据预处理后，构造癌症驱动基因网络，结合互斥性和覆盖性构造有向加权网络；

(3)对构造好癌症突变基因网络调用递归的Louvain社区检测算法，初步预测癌症驱动模块，然后用连通性原理，对预测模块利进行拆分和扩展，获得癌症驱动模块的预测结果；

2.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法，其特征在于，本方法在数据预处理阶段：

(1)对体细胞突变数据进行预处理，去除所有肿瘤类型中高突变和低表达的基因，获得筛选后的数据；

(2)计算基因突变频率，对于基因g_i，用在基因g_i上至少有一个单核苷酸变异或拷贝数变异的样本数除以所有样本的数目；

3.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法，其特征在于本方法在构造目标网络阶段：

(1)对PPI网络G＝(V,E)，设Si是突变基因g_i的样本集，每个顶点u_i∈V表示一个基因g_i在网络中产生相应的蛋白质，每个无向边(u_i,u_j)∈E表示对应于基因g_i、g_j的蛋白质之间的相互作用；

(2)将图G构造成有向加权图G_w，每个g_i∈V分配权重，权重对应基因的突变频率，w(g_i)＝CO({g_i})，定义

表示包含一组基因的模块，M的互斥分数

覆盖分数

(3)(g_i,g_j)表示无向边，在两个方向生成有向边，分别为[g_i,g_j]和[g_j,g_i]；无向边(g_i,g_j)的权重表示为w’(g_i,g_j)，有向边[g_i,g_j]的权重表示为W[g_i,g_j]；在顶点邻域内计算互斥性分数，(N(g_i)表示g_i的闭邻域，即

互斥性对权重的影响分数，MEX_n(g_i,g_j)取MEX(N(g_i))和MEX(N(g_j))的平均数，w’(g_i,g_j)＝MEX_n(g_i,g_j)×CO({g_i})×CO({g_j})，

4.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法，其特征在于本方法在预测癌症驱动模块阶段：

(1)对构造好癌症突变基因网络运用递归的Louvain社区检测算法，具体的，先对构造好的网络G_w调用Louvain社区检测，然后对获得的子社区进行判断，对于未达到目标大小的子社区，提取它作为原始网络的子图并将其添加到网络列表中，对列表中的子图递归的再次调用Louvain，直到所有的社区都被分解成10个或更少的基因，或者在三个以上的社区中发现了同一个基因，从而获得G_d；

(2)进行进一步癌症驱动模块的预测，把G_d中的强连接组件(SCCs)作为基础元件，创建一组初始的候选模块，迭代地从G_d中删除最小权值边，将G_d的SCCs添加到初始模块集P中，从P中删除所有小于min_size的模块，直到P中的基因总数减少到total_genes；把导出的任意子图中任意顶点的最大输出度定义为split_size，任何输出度大于split_size的初始候选模块M_q都进行拆分；模块规模小于min_size的组件作为叶子模块，而位于这两种大小之间的其他组件为种子模块；提取满足一定大小和连通性标准的种子模块，用小叶子模块扩展它们；在扩展阶段，取每个叶模块与种子模块合并，使得种子模块在G_d(M_q)中具有最大的连接数，获得最终的模块集合P，即癌症驱动模块的集合。