CN113192562A

CN113192562A - 融合多尺度模块结构信息的致病基因识别方法及系统

Info

Publication number: CN113192562A
Application number: CN202110496456.1A
Authority: CN
Inventors: 李敏; 项炬
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-07-30
Anticipated expiration: 2041-05-07
Also published as: CN113192562B

Abstract

本发明公开了一种融合多尺度模块结构信息的致病基因识别方法及系统，通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分；对于每个尺度的模块划分，计算模块的疾病相关性分值和基因的疾病相关性分值，并获得基因的排序列表；基于朴素贝叶斯理论，计算来自多尺度模块划分的基因排序列表的聚合分值列表和对应的基因排序列表；将基于多尺度模块结构的基因排序列表和基于网络随机游走的基因排序列表融合以得到最终的综合的基因分值列表，并计算得到最终的基因排序列表，从而识别致病基因。本发明的方法通过网络多尺度模块挖掘，能够有效地利用隐藏在网络多尺度模块结构中的信息，从而获得更强的识别致病基因的能力。

Description

融合多尺度模块结构信息的致病基因识别方法及系统

技术领域

本发明涉及生物信息学领域，特别是一种融合多尺度模块结构信息的致病基因识别方法及系统。

背景技术

人类疾病基因发现的进展增加了人们对人类疾病潜在分子基础的认识，但已知与疾病相关的致病基因只占发病率的很小比例，还有许多疾病致病基因有待进一步探索。传统的方法往往提供一长串候选基因，需要大量耗时的实验鉴定。因此，开发预测疾病致病基因的计算算法对于加速疾病相关基因的发现具有重要意义。

基于网络的算法已经成为疾病致病基因预测的流行策略。例如，一些算法通过考虑已知疾病相关基因的直接邻居来推断疾病相关基因；一些算法进一步考虑候选基因与网络中已知疾病致病基因(集合)之间的最短路径距离或接近度；一些算法利用网络传播来提取疾病相关信息；一些基于模块的算法也应用于疾病致病基因/模块以及相关问题的分析。模块结构或者说群落结构，在生物分子网络中无处不在，人类疾病的模块结构可为疾病的研究提供有用的见解，但在疾病致病基因预测中还没有得到充分的探索。

多尺度模块检测是研究生物分子网络等复杂系统的重要手段，因为多尺度结构广泛存在于各种自然和人工复杂系统中。例如，蛋白质网络中的模块可包含若干子模块，例如，许多蛋白质复合物(例如SAGA)包含若干次级复合物。多尺度模块结构比单尺度模块结构能提供更多的信息，许多的多尺度模块分解方法已被提出并应用于生物网络分析，但仍存在许多具有挑战性的问题，例如，现有技术并未研究和解决如何挖掘隐藏在多尺度结构中的有价值信息来识别疾病的致病基因。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种融合多尺度模块结构信息的致病基因识别方法及系统，提高疾病的致病基因识别的准确性。

为解决上述技术问题，本发明所采用的技术方案是：一种融合多尺度模块结构信息的致病基因识别方法，包括以下步骤：

S1、通过模块度函数Q(γ)提取不同尺度下的基因网络模块划分；其中，模块度函数Q(γ)的表达式为：

γ为分辨率参数，M表示基因网络中的边数目，

表示模块s的内部度值，k_s表示模块s的总度值；

S2、计算所述不同尺度下的网络模块划分的疾病相关性分值和基因的疾病相关性分值，并获得不同尺度下的基因排位列表；

S3、计算所述不同尺度下的基因排位列表的聚合分值列表，从而获得对应的融合多尺度模块结构信息的聚合的基因排位列表

计算基于网络随机游走的基因分值列表，通过所述基因分值列表的降序排列得到基于网络随机游走的基因排位列表

S4、融合步骤S3所得的融合多尺度模块结构信息的聚合的基因排位列表和基于网络随机游走的基因排位列表，得到最终的综合的基因计分列表，通过所述综合的基因计分列表计算基因综合得分，识别致病基因。

本发明通过多尺度模块挖掘算法从多个尺度上提取网络的模块结构，分别从每个尺度上的模块结构提取有助于疾病基因识别的信息，然后融合来自不同尺度上的信息，将这些信息与传统的网络随机游走方法提取的信息融合，从而能更有效的识别疾病候选基因。

所述分辨率参数γ的提取方法包括：通过指数抽样从区间[γ_min,γ_max]获得一组分辨率参数值；其中抽样间隔为Δlogγ＝0.01，γ_min＝10^-20，

k_min是基因-基因关联网络节点的最小度值。采用不同分辨率可获得不同分辨率视角下的模块结构信息，在整个连续的分辨率空间中提取所有模块结构是不可能的，因此依据以往的研究经验，对分辨率进行指数抽样，可以较好地获得各个分辨率下的模块结构信息。

步骤S2的具体实现过程包括：

1)定义一个向量

表示N个基因与某个疾病之间的关联性分值；在基因网络中，如果第i个基因是疾病的致病基因，则l_i＝1，否则l_i＝0；R^N×1为大小为N×1的实数矩阵；T表示矩阵转置；对每个网络模块划分，定义一个划分矩阵B^(h)来表示该网络模块划分；对于每个网络模块，定义一个对角矩阵

其中

2)在第h个网络模块划分中，所有网络模块的疾病相关性分值

的计算公式为：

所有基因的疾病相关性分值

的计算公式为：

3)构建基因排位矩阵

其中，

表示对应第h个模块划分的基因排位列表；h＝1,2,……,H；H为基因排位列表的数量，即网络模块划分的数量，也即抽样的分辨率值的数量；所述基因排位矩阵即H个纵向的基因排位列表沿着横向依次排布构成的矩阵。

以上步骤从每个尺度的网络模块划分中提取有助于疾病基因的信息，能够综合考虑每个网络模块的大小、模块内已知的疾病基因数量等因素来更有效的对基因进行打分，为下一步多尺度模块划分中的信息的融合提供基础。

步骤S3中，融合多尺度模块结构信息的聚合的基因排位列表

函数generank()通过

中基因分值的降序排列获得基因的排位列表，其中融合多尺度模块结构信息的基因分值列表

的计算公式如下：

表示基因排位矩阵的第h列中对应基因g的元素的值，即基因g在第h个网络模块划分中对应的基因排位值；g＝1,2,……,N；N表示基因个数；H为基因排位列表的数量，即网络模块划分的数量，也即抽样的分辨率值的数量；β_h表示对应第h个网络模块划分的权重参数。该融合公式从贝叶斯理论推导而来，能够更有效的融合多源信息。它融合了来自多个尺度下的基因排位列表信息，从而获得基于多尺度模块结构的基因计分，为下一步与传统随机游走方法提取的信息进行融合提供基础。

步骤S3中，基于网络随机游走的基因排位列表

M_G为基因网络中的概率转移矩阵；α表示随机游走的重启概率；

表示起始分值向量；

表示第t步随机游走时游走粒子处于各个基因节点的概率。在疾病-基因异构网络中，s_GRW的计算公式为

表示第t步随机游走时游走粒子处于各个疾病节点的概率；

表示疾病网络的起始分值向量，也称为疾病网络的起始概率向量，

中对应被研究的疾病的元素值等于1，其它元素值等于0；M_H为异构网络的概率转移矩阵。该随机游走方法能够综合利用已知的疾病基因信息、蛋白质网络或者基因网络的拓扑结构信息以及疾病-疾病之间的关联信息，来对基因进行综合打分，计算结果更准确。

步骤S4中，所述综合的基因计分列表计算基因综合得分

其中，

表示

基因g在基因排位列表

中的值；

表示基因g在基因排位列表

中的值；g＝1,2,……,N；N表示基因个数；R^N×1表示对应变量属于N维的列向量。该融合公式从贝叶斯理论推导而来，能够更有效的融合多源信息。

本发明还提供了一种融合多尺度模块结构信息的致病基因识别系统，其包括计算机设备；所述计算机设备被配置或编程为用于执行上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：本发明通过有效提取网络的多尺度结构特征，从而利用网络的多尺度模块结构信息来更有效的识别疾病的致病基因。在真实的数据集上的实验结果表明，与多个现有方法相比，本发明的方法具有更强的识别疾病致病基因的能力。

附图说明

图1为本发明方法HyMM的流程图；

图2为本发明方法HyMM在基因网络中的交叉验证性能指标图：(a)AUROC性能；(b)AURecall性能；

图3为本发明方法HyMM在疾病-基因异构网络中的交叉验证性能指标图：(a)AUROC性能；(b)AURecall性能；

图4为本发明方法HyMM在基因网络中的外部数据集验证性能指标图：(a)AUROC性能；(b)AURecall性能；

图5为本发明方法HyMM在疾病-基因异构网络中的外部数据集验证性能指标图：(a)AUROC性能；(b)AURecall性能；。

具体实施方式

下面结合附图对本发明作进一步的描述。

一、数据准备与网络构建；

获取疾病-基因关联数据，基因-基因关联数据，疾病-疾病关联数据；将三类数据综合以构建疾病-基因异构网络；

二、多尺度网络模块划分提取；

通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分，计算方法如下：

(1)模块度优化的目标函数Q定义为

其中，γ为分辨率参数，M表示网络中的边数目，

表示模块s的内部度值，k_s表示模块s的总度值，上述求和遍及对应模块划分的所有模块；

(2)分辨率参数的提取方法如下：通过指数抽样从区间[γ_min,γ_max]获得一组分辨率参数值，其中抽样间隔为Δlogγ＝0.01，γ_min＝10^-20，

通过优化不同分辨率下的模块度函数Q(γ)提取不同尺度下的网络模块划分(network modulepartition或者network community partition，网络模块划分表示具体分辨率下网络的一种分割方式，对应着一个网络模块的集合)；

三、基于多尺度网络模块划分计算基因在多尺度下的疾病相关性排位；

对于每个尺度的模块划分，计算模块的疾病相关性分值和基因的疾病相关性分值，并获得基因的降序排位列表；计算方法如下：

(1)定义一个向量

来表示N个基因与某个疾病之间的关联性分值；在基因网络中，如果第i个基因是致病基因，则l_i＝1，否则为零；

(2)对每个模块划分，定义一个划分矩阵B^(h)来表示该模块划分，其中

表示在该模块划分中基因i是否属于模块j；

(3)对于每个模块划分，定义一个对角矩阵

其中

(4)在第h个模块划分中，所有模块的疾病相关性计分计算为，

(5)在第h个模块划分中，所有基因的疾病相关性计分计算为，

然后计算基因计分的降序排位列表

排位列表沿着纵向排列；依次计算对应于每个模块划分的基因排位列表，共H个排位列表；；

四、基于贝叶斯理论的多个基因排位列表的聚合；

多个基因排位列表的聚合方法定义如下：

(1)给定一组特征{f_h}，根据朴素贝叶斯理论，某个基因处于状态x的概率表示为

其中P(x)P(f_h|x)＝P(f_h)P(x|f_h),P(f_h)表示特征的先验概率；P(x)表示基因处于状态x的先验概率；令P(f_h)和P(x)为常数,得到，

(2)每个模块划分对应一个特征，并且基于特征计分的基因(如基因g)的排位越高，则基因g为疾病基因的条件概率P(x_g|f_h)越大，因而将条件概率定义为，

于是基于多尺度模块划分的基因综合计分可以表示为，

其中

表示基因排位矩阵的第h列中对应基因g的元素的值(即该基因的排位值)，即基因g在第h个模块划分中对应的基因排位值；

(3)基于上式和前述的基因排位矩阵，计算每个基因的基于多尺度模块的疾病相关性分值，并进一步整合成基因的综合计分列表

计算表达式为，

然后，通过基因的综合计分列表

的降序排列，计算得到基于多尺度模块结构的综合的基因排位列表

该函数通过

中基因分值的降序排列获得基因的排位列表；

(4)计算基于网络随机游走的基因计分列表s_GRW；在基因网络中s_GRW的计算公式为，

其中M_G为基因网络中的概率转移矩阵，它通过将基因网络的邻接矩阵A_G作列归一化得到，计算公式为M_G＝A_GD_G ^-1；D_G为对角矩阵，矩阵元素D_G(i,i)＝∑_jA_G(j,i)；

表示第t步随机游走时游走粒子处于各个基因节点的概率；

表示起始分值向量，也称为起始概率向量，它可以通过将向量

归一化得到；α表示随机游走的重启概率；

在疾病-基因异构网络中s_GRW的计算公式为

和

的含义同上所述；

表示第t步随机游走时游走粒子处于各个疾病节点的概率；

中对应被研究的疾病的元素值等于1，其它元素值等于0；

M_H为异构网络的概率转移矩阵，计算方法为

D_H为对角矩阵，矩阵元素D_H(i,i)＝∑_jA_H(j,i)；A_H表示初级概率矩阵，定义为，

其中，M_D为疾病-疾病网络中的概率转移矩阵，它通过将疾病-疾病网络的邻接矩阵A_D作列归一化得到，计算公式为

D_D为对角矩阵，矩阵元素D_D(i,i)＝∑_jA_D(j,i)；

M_GD表示从疾病到基因的跳转概率，计算方法为，

A_GD表示基因-疾病关联矩阵，如果基因j是疾病i的致病基因，则A_GD(j,i)＝1否则等于A_GD(j,i)＝0；D_GD为对角矩阵，矩阵元素D_GD(i,i)＝∑_jA_GD(j,i)；

M_DG表示从基因到疾病的跳转概率，计算方法为

表示疾病-基因关联矩阵；D_DG为对角矩阵，矩阵元素D_DG(i,i)＝∑_jA_DG(j,i)；

通过上述的迭代计算公式(即随机游走公式1或随机游走公式2)得到稳定的概率向量

通过概率向量s_GRW的降序排列，计算基于网络随机游走的基因排位列表

计算基于多尺度模块结构的基因排位列表

和基于网络随机游走的基因排位列表

的最终的综合的基因计分列表，计算公式为，

其中，

表示基因g在基因排位列表

中的值；

表示基因g在基因排位列表

中的值；g＝1,2,……,N；N表示基因个数。

最后，通过计算基因综合得分

的降序排列来识别致病基因。

五、实验测试

为了验证本发明方法的有效性，将已知的致病基因关联数据作为测试平台，对本发明方法的性能进行综合评估；

(1)测试数据：疾病基因数据、基因-基因关联数据和疾病-疾病关联数据来自公开的数据集(doi.org/10.1038/ncomms5212；doi.org/10.1126/science.1257601；doi.org/10.1371/journal.pcbi.1004120)；外部数据集来自公开的DisGeNet数据库；

(2)评价方法：采用五折交叉验证，对每个疾病，将其已知疾病基因集合随机拆分成5份，其中的每一份依次作为阳性测试集，其它作为训练集；将AUROC和AURecall指标作为预测性能的评估指标；AUROC，又称为AUC，是接收着工作特性曲线(ROC)下的面积，已被广泛用于全面衡量预测算法的全局性能，其中ROC曲线是以真阳性率(又称召回率、敏感性)为纵坐标，以假阳性率为横坐标的性能曲线；AURecall(k＝100)是top-k召回率曲线下的面积，其中该曲线以召回率为纵坐标，以k为横坐标；AURecall针对预测列表的局部，称其为局部性能指标；

(3)评价结果

从图2和图3可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率)，在交叉验证中，本发明方法HyMM优于基准算法，尤其是在局部性能指标上本方法获得极大的性能提升；从图4和图5可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率)，在外部数据集的测试中，本发明方法的综合性能同样优于基准算法，而且在局部性能指标上明显地优于基准算法。

由此可见，本发明方法HyMM通过有效利用网络多尺度结构的信息能够明显提升疾病致病基因的识别能力。