CN111192639A

CN111192639A - 一种基于复杂网络的肿瘤转移关键基因检索方法

Info

Publication number: CN111192639A
Application number: CN202010004969.1A
Authority: CN
Inventors: 杨天濠; 徐晨曦; 王子赫
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-22

Abstract

本发明结合随机游走重启算法和最短路径算法，提出一种基于复杂网络的肿瘤转移关键基因检索方法，来检索与筛选导致肿瘤转移的关键基因集。其中，通过在PPI网络上运行随机游走重启算法并利用置换检验方法排除网络结构对结果的影响，得到了肿瘤转移候选基因。然后，通过在构建的局部PPI网络上运行最短路径算法得到了肿瘤转移关键基因。最后对肿瘤转移关键基因进行富集分析及文献挖掘，可以验证结果的准确性和方法的有效性，从基因层面揭示肿瘤转移的病理机制。

Description

一种基于复杂网络的肿瘤转移关键基因检索方法

技术领域

本发明属于生物信息学技术领域，具体涉及到一种基于复杂网络的肿瘤转移关键基因检索方法。

背景技术

恶性肿瘤是危害人类健康的全球公共卫生问题之一，其中转移是恶性肿瘤发生和演变过程中最危险的阶段。肿瘤转移是一个多步骤、多阶段、多途径、涉及多基因变化的复杂过程。临床上，60％以上的恶性肿瘤患者在被确诊时已经发生转移，它是导致癌症患者死亡的主要原因之一。

生物学研究证明，特定的遗传背景对肿瘤转移有着重要的影响。近年来，从基因组水平筛选与转移表型相关的功能基因已经成为肿瘤转移研究领域的热点，它可以为转移的诊疗提供分子标志和靶点，有利于在基因水平揭示肿瘤转移的本质，为改进肿瘤的诊断方法和治疗手段提供依据。

目前，肿瘤转移相关基因的鉴定和验证主要依赖于临床医学及生物实验，需要花费大量的时间和经济成本，限制了发现的能力。随着生物信息学的发展，一些计算方法被应用于致病基因的发现，相对于临床医学与生物实验，计算方法具有高效、低成本的特点。

发明内容

针对上述问题，本发明提出一种基于复杂网络的肿瘤转移关键基因检索方法，来发现导致肿瘤转移的关键基因集。

本发明的具体步骤如下：

S1，通过从STRING等在线数据库中获取蛋白质相互作用数据，构建PPI(protein-protein interaction)网络；

S2，根据已知的肿瘤转移类型(肿瘤A向肿瘤B转移)，从不同数据库中分别收集和整理肿瘤A和肿瘤B的相关基因数据，其集合定义为S_a和S_b，并对基因数据进行预处理，使其对应在PPI网络中；

S3，将S2中得到的基因整合作为种子节点，在PPI网络上运行随机游走重启算法，得到网络中每个基因的概率得分，选择概率得分大于10^-5的基因，称为RWR基因；

S4，通过置换检验删除p-value值大于0.1的基因，得到的基因称为候选基因；

S5，在PPI网络中选取S4中候选基因之间的相互作用，构建一个局部PPI网络，表示候选基因间的相互关系，并改变该网络的权重；

S6，在S5中的局部PPI网络上搜索S_a中所有基因到S_b中所有基因的最短路径；

S7，根据S6的结果，计算除种子节点外每个节点的介数中心性，选择介数中心性大于0.01的节点对应的基因，这些基因称为肿瘤转移关键基因；

S8，对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘验证。

本发明的技术方案特征和改进为：

对于步骤S1，PPI(蛋白质-蛋白质相互作用)是指两个蛋白质分子通过非共价键形成蛋白质复合体的过程，PPI在细胞内和细胞间生化过程中起着重要作用，可用于遗传疾病的研究，蛋白质相互作用信息包含了蛋白质之间的物理和功能联系，可以更广泛地表达蛋白质之间的关系，研究证明，PPI中的两种蛋白更有可能具有类似的功能，因此，利用蛋白质相互作用信息构建PPI网络可以检索与肿瘤转移有关的关键基因，PPI网络中节点表示蛋白质，当两个蛋白质之间存在相互作用时，其对应节点之间存在一条连边，边权表示蛋白质之间的置信得分。

对于步骤S2，将S_a和S_b中的基因整合并删去重复的基因，得到n个独特的基因作为随机游走算法的种子节点。

对于步骤S3，随机游走重启算法是一种经典的排序算法，它从一些种子节点开始，模拟网络中节点的随机游走和重启，在算法的每一步中，节点都以相等的概率移动到其邻居节点，并以一定的概率返回种子节点，经过多次迭代后，算法的结果趋于稳定，根据概率得分对节点进行排名，随机游走重启算法的迭代公式如下：

P_i+1＝(1-r)AP_i+rP₀ (1)

其中P₀为初始概率得分列向量，其种子节点对应的值的设置为1/n，其它节点对应值设置为0，其中P_i表示执行第i步后得到的概率得分列向量，A表示PPI网络的列归一化邻接矩阵，r为重启概率，以表示种子节点的重要程度，当‖P_i+1-P_i‖_L1<10^-6时，迭代结果趋于稳定，算法停止，并且输出P_i+1，算法的最终结果表示种子节点在网络中随机游走到其他节点的概率，体现了其他节点与种子节点的相关性，选择概率得分大于10^-5的基因，称为RWR基因。

对于步骤S4，利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响，从而存在很多与结果无关的基因，为了尽可能排除这些基因，提出了置换检验(Permutation Test)规则，通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法，得到1000组随机概率得分结果，对于每个RWR基因g，计算其p-value值：

其中θ表示对于基因g，1000组随机概率得分结果大于S3中结果的数目，具有较高p-value值的基因很可能与结果无关，因此，删除p-value值大于0.1的基因，得到的基因称为候选基因。

对于步骤S5，在PPI网络中选取S4中候选基因之间的相互作用，构建一个局部PPI网络，表示候选基因间的相互关系，对于节点n_a和n_b(对应蛋白质p_a和p_b)之间的边e，当p_a和p_b之间存在相互作用时，改变其权值为：

其中S(p_a,p_b)表示蛋白质p_a和p_b之间的置信得分，可见在该局部PPI网络中，蛋白质之间的相互关系与边的权重反相关。

对于步骤S7，根据S6的结果，对于每个候选基因g(除种子节点外)，计算其介数中心性：

其中B(g)表示在S6中所有最短路径中经过基因g的数目，选择介数中心性大于0.01的节点对应的基因，这些基因更有可能是导致肿瘤转移的基因，称为肿瘤转移关键基因。

对于步骤S8，对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘，可以验证该方法的有效性，从基因层面揭示肿瘤转移的病理机制。

本发明的有益效果：

(1)本发明将复杂网络方法应用到肿瘤转移关键基因的检索中，大大降低了肿瘤转移相关基因鉴定的成本，缩短了发现的时间，对癌症患者临床的诊断和治疗具有重要的意义。

(2)本发明拓展了复杂网络在挖掘复杂疾病遗传因素中的应用，有利于生物信息学的发展。

附图说明

图1是本发明一种基于复杂网络的肿瘤转移关键基因检索方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出一种基于复杂网络的肿瘤转移关键基因检索方法，该方法包含：

对于步骤S1，通过从STRING等在线数据库中获取蛋白质相互作用数据，构建PPI网络。其中蛋白质相互作用信息包含了蛋白质之间的物理和功能联系，可以更广泛地表达蛋白质之间的关系。PPI网络中节点表示蛋白质；当两个蛋白质之间存在相互作用时，其对应节点之间存在一条连边；边权表示蛋白质之间的置信得分。

对于步骤S3，随机游走重启算法是一种经典的排序算法，它从一些种子节点开始，模拟网络中节点的随机游走和重启。在算法的每一步中，节点都以相等的概率移动到其邻居节点，并以一定的概率返回种子节点。经过多次迭代后，算法的结果趋于稳定，根据概率得分对节点进行排名。随机游走重启算法的迭代公式如下：

P_i+1＝(1-r)AP_i+rP₀ (5)

其中P₀为初始概率得分列向量，其种子节点对应的值的设置为1/n，其它节点对应值设置为0。其中P_i表示执行第i步后得到的概率得分列向量；A表示PPI网络的列归一化邻接矩阵；r为重启概率，以表示种子节点的重要程度。当‖P_i+1-P_i‖_L1<10^-6时，迭代结果趋于稳定，算法停止，并且输出P_i+1。算法的最终结果表示种子节点在网络中随机游走到其他节点的概率，体现了其他节点与种子节点的相关性。选择概率得分大于10^-5的基因，称为RWR基因。

对于步骤S4，利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响，从而存在很多与结果无关的基因，为了尽可能排除这些基因，提出了置换检验(Permutation Test)规则。通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法，得到1000组随机概率得分结果。对于每个RWR基因g，计算其p-value值：

其中θ表示对于基因g，1000组随机概率得分结果大于S3中结果的数目，具有较高p-value值的基因很可能与结果无关。因此，删除p-value值大于0.1的基因，得到的基因称为候选基因。

对于步骤S5，在PPI网络中选取S4中候选基因之间的相互作用，构建一个局部PPI网络，表示候选基因间的相互关系。对于节点n_a和n_b(对应蛋白质p_a和p_b)之间的边e，当p_a和p_b之间存在相互作用时，改变其权值为：

其中S(p_a,p_b)表示蛋白质p_a和p_b之间的置信得分。可见在该局部PPI网络中，蛋白质之间的相互关系与边的权重反相关。

对于步骤S6，在S5中的局部PPI网络上搜索S_a中所有基因到S_b中所有基因的最短路径。

其中B(g)表示在S6中所有最短路径中经过基因g的数目。选择介数中心性大于0.01的节点对应的基因，这些基因更有可能是导致肿瘤转移的基因，称为肿瘤转移关键基因；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复杂网络的肿瘤转移关键基因检索方法，其特征即具体步骤如下：

2.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S1，PPI(蛋白质-蛋白质相互作用)是指两个蛋白质分子通过非共价键形成蛋白质复合体的过程，PPI在细胞内和细胞间生化过程中起着重要作用，可用于遗传疾病的研究，其中蛋白质相互作用信息包含了蛋白质之间的物理和功能联系，可以更广泛地表达蛋白质之间的关系，研究证明，PPI中的两种蛋白更有可能具有类似的功能，因此，利用蛋白质相互作用信息构建PPI网络可以检索与肿瘤转移有关的关键基因，PPI网络中节点表示蛋白质，当两个蛋白质之间存在相互作用时，其对应节点之间存在一条连边，边权表示蛋白质之间的置信得分。

3.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S2，将S_a和S_b中的基因整合并删去重复的基因，得到n个独特的基因作为随机游走算法的种子节点。

4.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S3，随机游走重启算法是一种经典的排序算法，它从一些种子节点开始，模拟网络中节点的随机游走和重启，在算法的每一步中，节点都以相等的概率移动到其邻居节点，并以一定的概率返回种子节点，经过多次迭代后，算法的结果趋于稳定，根据概率得分对节点进行排名，随机游走重启算法的迭代公式如下：

P_i+1＝(1-r)AP_i+rP₀ (1)

5.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S4，利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响，从而存在很多与结果无关的基因，为了尽可能排除这些基因，提出了置换检验(Permutation Test)规则，通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法，得到1000组随机概率得分结果，对于每个RWR基因g，计算其p-value值：

6.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S5，在PPI网络中选取S4中候选基因之间的相互作用，构建一个局部PPI网络，表示候选基因间的相互关系，对于节点n_a和n_b(对应蛋白质p_a和p_b)之间的边e，当p_a和p_b之间存在相互作用时，改变其权值为：

7.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S7，根据S6的结果，对于每个候选基因g(除种子节点外)，计算其介数中心性：

8.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法，其特征在于，对于步骤S8，对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘，可以验证该方法的有效性，并从基因层面揭示肿瘤转移的病理机制。