CN103559426A

CN103559426A - 一种针对多视图数据融合的蛋白质功能模块挖掘方法

Info

Publication number: CN103559426A
Application number: CN201310545984.7A
Authority: CN
Inventors: 贾克斌; 张媛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2013-11-06
Filing date: 2013-11-06
Publication date: 2014-02-05

Abstract

本发明属于数据挖掘领域，公开了一种针对多视图数据融合的蛋白质功能模块挖掘方法。首先，量化多个数据源对蛋白质相互作用的强弱描述，形成多视图数据；进而，利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解，通过得到对多视图信息的最优近似，确定蛋白质的功能模块。本发明提出一种针对多视图数据融合的蛋白质功能模块挖掘方法，着眼于同时分析多生物数据，包括基因共表达、GO注释和PPIN，从多视图中提取聚合特征最为一致的蛋白质功能模块。本发明尤其适用于蛋白质相互作用网络和生物数据，同时可应用于社交复杂网络、通讯网络的社区挖掘问题。

Description

一种针对多视图数据融合的蛋白质功能模块挖掘方法

技术领域

本发明属于数据挖掘领域，涉及一种融合多种生物数据源和蛋白质相互作用网络(Protein-protein interaction network,PPIN)的蛋白质功能模块检测方法。

背景技术

基于蛋白质相互作用网络分析蛋白质的具体功能是目前生物信息学研究中的一大热点。蛋白质相互作用(Protein-protein interaction,PPI)描述的是两个蛋白质间的物理直接连接，或者具有一致功能的两个蛋白质的间接连系。PPIN以每个蛋白质为结点，两个蛋白质间的相互关系作为两结点的边，形成一无向图。在生物体内，多数蛋白质通过相互作用形成功能意义上紧密联系的集合，也就是功能模块，从而共同执行相应的一种或多种生命活动，因此分析PPI功能意义是了解和掌握生命活动的分子机制的基础。至今，学术各界已提出多种聚类方法用来检测PPIN中的功能模块，其中基于非监督学习的聚类方法是最常用的PPI模块挖掘方法。然而，由于PPI数据的高噪声和不完整性，聚类结果大多不能令人满意。有学者证实酵母双杂交实验(Yeast Two-Hybrid)所检测到的PPI的误报率(False Positive)可达50%。基于如此大噪声比例的数据，单纯依据PPIN的拓扑特征不能保证得到可靠的功能模块检测结果。。这也是之前一些传统功能模块挖掘方法，如MCODE,CFinder,马尔科夫聚类(MarkovClustering,MCL)等方法的一大掣肘。

近年来生物数据收集方法日新月异，结合多种数据对PPI进行研究成为可能。首先，基因表达数据被用于寻找共表达的基因和基因产物。这一方法的基本假设是，在一段生命过程中表达模式相似的基因(或基因产物)倾向具有相同的功能，同时在PPIN中也更倾向于相互联系形成密集功能模块。Segal等人依据基因共表达的模式特征来提取功能模块；Li和Wu将基因共表达作为PPIN权重进行网络分析。另一方面，Cho等人利用基因本体注释信息(GeneOntology,GO)计算蛋白质相似度，并据此构建了蛋白质功能流在网络中的传输模型，功能流所到之处被划分为同一功能模块。这一方法体现了蛋白质功能在网络中的动态传递概念，并解决了多功能蛋白质的多功能模块从属，即功能模块的重叠问题。

这些方法均达到一定程度的成功。然而不同的数据各有倾向：基因共表达倾向于检测细胞生命过程中表达模式一致的蛋白质群，而GO则是静态描述的功能信息。同时，二者各有弊端：首先，基因表达数据在收集过程中，实验本身引入的噪声不可避免；其次，由于人类技术所限，还有丰富的基因功能特质依然未知，GO注释信息也仍在不断完善。将每个角度所获得的数据看做一个视图。如何从多视图中提取出最准确的信息是生物信息学及数据挖掘界一直面临的难题。

发明内容

针对蛋白质相互作用数据的高噪声问题，提出一种针对多视图数据融合的蛋白质功能模块挖掘方法。本方法着眼于同时分析多生物数据，包括基因共表达、GO注释和PPIN，从多视图中提取聚合特征最为一致的蛋白质功能模块。该方法尤其适用于蛋白质相互作用网络和多生物数据的融合分析，同时可应用于社交复杂网络、通讯网络的社区挖掘问题。

本发明所采取的技术方案是：首先，量化多个数据源对蛋白质相互作用的强弱描述，形成多视图数据；进而，利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解，通过得到对多视图信息的最优近似，确定蛋白质的功能模块。

一种针对多视图数据融合的蛋白质功能模块挖掘方法，包括以下步骤：

步骤1：构建蛋白质相互作用网络的邻接矩阵A。

每个结点顺序编号并标记为(1,2,…,N)，N为结点总数。结点i、j间的边记为e_ij，且0<i<N,0<j<N；忽略自相关关系，A的对角线元素全部设定为0。由于相互作用无方向指向，因此A为对称矩阵。

步骤2：计算基因表达模式的相似程度。

采用Pearson相关系数计算基因表达模式的相似程度，并归一化至[0,1]。

步骤3：计算基因表达谱上的相似矩阵。

将基因共表达相关系数作为e_ij的权重，与PPIN结合，获得基因表达谱上的相似矩阵wCO：

wCO_ij＝CoExp_ij×A_ij

其中，CoExp为基因共表达相关系数；×代表元素相乘。

步骤4：提取蛋白质所对应的基因本体标注。

选择GO的三个不同知识体系当中的生物过程(Biological Process,BP)体系，并选择在BP标注体系中每个蛋白质的GO注释条目，用以计算步骤5、6中基因及基因生成物的相似度。

步骤5：计算两注释条目的功能相似度。

采用基于信息量(Information Content,IC)的方法，即测量比较任意两条目间共同的信息量大小，计算两注释条目的功能相似度，方法如下：

给定BP注释体系中任一个条目c，Ф为BP中从属于c的所有子条目的集合，p(c)表示一个基因被Ф中任一条目所注释的概率，并以负对数形式表示该条目所包含的信息量，即-log(p(c))。计算两个条目的功能相似度，即二者最低层的共有父条目结点的信息量大小，公式如下：

S (c_{i}, c_{j}) = \max_{c &Element; Pa (c_{i}, c_{j})} \frac{2 \times [\log (p (c))]}{\log (p (c_{i})) + \log (p (c_{j}))}

其中，Pa(c_i,c_j)是c_i,c_j共有父条目的集合。

步骤6：计算任意两个蛋白质的功能相似度。

基于上述两注释相似度的计算结果，考虑到基因通常被多条GO注释，故计算两基因i和j的功能相似度，首先挑选该基因i所具有的任一注释c_u，并找到另一基因j所对应的注释集Θ_j中与c_u具有最大相似度的注释c_w，而c_u与c_w间的相似度代表了该注释条目下的最大相似度。累计Θ_i和Θ_j中所有注释条目的最大相似度并取均值，得到两基因的功能相似度，即两蛋白质的相似度S(p_i,p_j)：

S (p_{i}, p_{j}) = \frac{1}{UW} (\underset{u &Element; Θ_{i}}{Σ} \max) (\underset{w &Element; Θ_{j}}{S} (c_{u}, c_{w})) + \underset{w &Element; Θ_{j}}{Σ} \max (\underset{u &Element; Θ_{i}}{S} (c_{u}, c_{w})))

其中，Θ_j，Θ_i是两个蛋白质所对应的注释集，U=|Θ_i|,W=|Θ_i|，分别代表了注释集的注释条目数量。

步骤7：融合PPIN数据，得到视图wGO。

将基因功能相似系数S(p_i,p_j)作为PPIN的另一权重，与其邻接矩阵结合获得另一PPIN视图wGO：

wGO_ij＝S_ij×A_ij

步骤8：初始化优化目标函数。

本发明是基于聚类非负矩阵分解的方法，具体优化目标函数为：

\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{I} {| | A^{(i)} - H^{(i)} S^{(i)} {(H^{(i)})}^{T} | |}_{F}^{2} + \frac{α}{2} Σ_{i = 1}^{I} {| | H^{(i)} - H^{*} | |}_{F}^{2}, \\ S . t . H^{(i)} &GreaterEqual; 0, \\ S^{(i)} &GreaterEqual; 0, \end{matrix}

其中，α≥0,i∈(1,...,I)，代表视图个数，I为视图总数。H^*代表同时最终拟合多个视图的最优统一解；H⁽ⁱ⁾是每个视图的基础分解矩阵，S代表一个仅对角元素非零的方阵，H⁽ⁱ⁾≥0,S⁽ⁱ⁾≥0，表示矩阵中所有元素都为非负值。

两视图wCO和wGO作为蛋白质相似度矩阵输入，即本发明的优化目标函数中的A⁽ⁱ⁾；初始化聚类矩阵H、H^*为非负随机矩阵，初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵。

步骤9：循环迭代H,H^*,S,直至目标函数收敛，迭代公式如下：

\begin{matrix} H_{nk}^{(i)} &LeftArrow; H_{nk}^{(i)} {(\frac{2 {(A^{(i)} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{*}}{2 {(H^{(i)} S^{(i)} {(H^{(i)})}^{T} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{(i)}})}^{\frac{1}{4}} \\ S^{(i)} &LeftArrow; {((H^{(i)}) H^{(i)})}^{- 1} {(H^{(i)})}^{T} A^{(i)} H^{(i)} {({(H^{(i)})}^{T} H^{(i)})}^{- 1} \\ H^{*} &LeftArrow; \frac{1}{I} Σ_{i = 1}^{I} H^{(i)} \end{matrix}

步骤10：将迭代结果H^*归一化至[0,1]，并以一定阈值λ取舍，即如果矩阵H^*中元素h_ij ^*>λ，则蛋白质i属于模块j。通过设置不同的阈值得到具有重叠性质的功能模块结果。

与现有技术相比，本发明具有以下优点：

（1）本发明能够从多种不同数据源中提取互补确信信息，检测出蛋白质相互作用网络中的功能模块。

（2）本发明利用聚合矩阵分解概念，将一致性检测问题转化为寻找多视图的共同基础矩阵问题，且依据图邻接相似度矩阵的对称性质提出了更为适用的优化函数。实验结果显示，本发明方法所检测到的功能模块结果更准确。

附图说明

图1为本发明所涉及的方法流程图；

图2为本发明与其它方法在两个不同PPIN数据集上准确度的比较，(a)中数据来自TAP数据，(b)中数据来自Biogrid数据库，本发明所述方法标记为CoNMF；

图3为本发明在TAP数据集上检测到的部分功能模块的结构图。

具体实施方案

下面结合附图及实施例对本发明做进一步说明。

本发明所采用的多数据/视图集成的非负矩阵分解方法，其基本思想是：具有相同功能的蛋白质一般在相互作用网络中倾向紧密联系，在基因表达谱中具有相似表达模式，同时在基因功能标注系统中也倾向于具有相似的语义信息。为检测多视图中的一致信息，本发明将多视图A(i)变换为基础向量的线性组合，采用三因子乘积计算多视图的近似分解结果；同时加入限定惩罚因子以引导目标函数收敛的同时，得到最优的一致性模块检测结果。

本实施例的多数据融合实验分别在两组PPIN数据进行。其一来自Gavin等人的工作，该PPI信息来源于串联亲和纯化提取方法(Tandem Affinity Purification,TAP)，包含2,551个蛋白质和21,413个相互作用。另一组PPIN数据来自Biogrid数据库。在实验中，剔除了Biogrid中不存在对应基因表达的蛋白质，得到一个包含4,531结点和其间143,226个相互作用的PPIN。本实施例实验中所用的GO数据下载自http://www.geneontology.org/.GO注释信息中，存在一些尚没有交叉验证的信息，为了取得更准确的相似度信息，本实施例实验中单独提取并使用仅提取经实验或专家验证后的注释条目，即IDA,IEP,IGI,IMP,IPI,RCA和TAS证据码下的GO注释，而排除IC,IEA,ISS,NAS及ND条目。基因表达数据来自GEO数据库(Gene ExpressionOmnibus)，其检索号为GSE12055。

针对多视图数据融合的蛋白质功能模块挖掘方法的流程图如图1所示，包括以下步骤：

步骤1：根据已有PPIN数据，构建蛋白质相互作用网络的邻接矩阵A。

步骤2：根据GSE12055中的基因表达谱数据，计算基因表达模式的相似程度。

步骤3：计算基因表达谱上的相似矩阵。

步骤4：从所下载的GO数据中，提取蛋白质所对应的基因本体标注。

步骤5：计算两注释条目的功能相似度。

步骤6：计算任意两个蛋白质的功能相似度。

步骤7：融合PPIN数据，得到视图wGO。

步骤8：根据本发明方法中的目标函数，初始化相应变量。

其中，两视图wCO和wGO作为蛋白质相似度矩阵输入，即本发明方法的优化目标函数中的A⁽ⁱ⁾；初始化聚类矩阵H,H^*为非负随机矩阵，初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵。

步骤9：循环迭代H,H^*,S,直至目标函数收敛。

该迭代算法包括三个步骤：

（1）给定H⁽ⁱ⁾,H^*，求解S⁽ⁱ⁾，S⁽ⁱ⁾的更新迭代公式：

S⁽ⁱ⁾←((H⁽ⁱ⁾)^TH⁽ⁱ⁾)^-1(H⁽ⁱ⁾)^TA⁽ⁱ⁾H⁽ⁱ⁾((H⁽ⁱ⁾)^TH⁽ⁱ⁾)^-1

（2）固定S⁽ⁱ⁾,H^*，求解H⁽ⁱ⁾，求解H⁽ⁱ⁾的迭代公式如下：

H_{nk}^{(i)} &LeftArrow; H_{nk}^{(i)} {(\frac{2 {(A^{(i)} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{*}}{2 {(H^{(i)} S^{(i)} {(H^{(i)})}^{T} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{(i)}})}^{\frac{1}{4}}

（3）给定H⁽ⁱ⁾,S⁽ⁱ⁾，求解H^*，公式如下：

H^{*} &LeftArrow; \frac{1}{I} Σ_{i = 1}^{I} H^{(i)}

重复迭代(1)～（3），最终达到目标函数的收敛。

步骤10：将迭代结果H^*归一化至[0,1]，并以一定阈值λ取舍，即如果矩阵H^*中元素h_ij ^*>λ，则蛋白质i属于模块j。通过设置不同的阈值得到具有重叠性质的功能模块结果。本实例中的阈值λ设为0.72，以达到最佳模块检测效果。

本实施例以CYC2008数据集做为校验标准，该数据集包含了408个酵母蛋白质功能模块，所有模块均经由小规模试验验证或有相关文献支持。实验中用查全率(Recall Rate,Rec)、查准率(Precision Rate,Prec)和二者融合的F度量(F-measure,F)值验证算法检测到的功能模块与CYC2008标准数据集的一致性。上述衡量指标的计算方法如下：

Prec＝TP/(TP+FN)

Rec＝TP/(TP+FP)

F = \frac{2 \times Prec \times Rec}{Prec + Rec}

其中，TP代表True Positive，真正性结果，即算法检测到的正确的模块；FP代表FalsePositive，假正性结果，即算法未检测到但在标准数据中存在的正确模块；FN为False Negative，假负性结果，算法检测到但标准数据中不存在的模块。

实验选取多种方法与本发明进行比较。其中，MCODE，CFinder，RRW均仅利用PPIN的拓扑结构。MCODE采用了一种贪婪算法将权重PPIN划分为紧密联系的子区域；CFinder采用基于全连通团(clique)的概念扩张网络中团成员形成功能模块；RRW是通过可重启的随机行走方法寻找起始节点可到达的结点组成功能模块。KerSpe采用了核函数方法融合多视图数据，并由谱聚类算法检测功能模块；WeiSum直接采取了多视图数据的权重融合，后续聚类算法也采用了谱聚类算法。此外，INENS，CLENS及HBGP是三种传统的聚类集成算法。以上八种方法作为本实例的基本比较算法。

如图2所示，本发明所提出算法CoNMF在Biogrid数据集上达到最高的F值，综合指标明显优于其它比较算法。基于PPIN拓扑结构的三种算法在TAP这一相对较精确且数据集较小的PPIN中精确度较高，但在Biogrid数据集上其结果则相对不及其它算法，这是因为基于PPIN拓扑结构的算法较易受数据集大小和噪声的影响，检测结果不稳定。同时发现直接以权重叠加不同视图的WeiSum算法同样在TAP数据上表现较为理想。WeiSum对Biogrid数据明显优于MCODE等三种算法，这说明了多视图融合的必要性。本发明与其它数据融合算法及聚类集成算法相比，CoNMF在Biogrid数据的检测结果要好于其它算法，其提高程度明显优于在TAP数据上的表现。由此得出结论，本发明所对噪声较大且数据集也较大的情况下提高较为显著。

表1给出了不同方法在两数据集上的结果，表中本发明方法标记为CoNMF。除查准率、查全率和F值外，表1统计了准确查找到的功能模块数、模块平均大小、准确查找到的模块覆盖蛋白质数目和属于多个模块的蛋白质数目。由比较结果看到，本发明检测出的功能模块平均大小更大，覆盖更多的蛋白质，同时所得结果允许某些蛋白质存在于多个功能模块，解决了模块的重叠问题。

以P-value为基准分析所得模块的GO富集度，P-value值越小说明该功能模块越可能具有该GO条目所注释的功能。一般文献中以P-value<0.05为准。图3为随机选取的模块实例，其中模块1～6的GO富集情况见表2，本实施例实验中所提取的蛋白质功能模块在GO富集度上表现出极高的一致性。因此，本发明能够发现具有实际生物学意义的蛋白质功能模块。

表1算法比较

表2部分结果的GO注释富集度分析（TAP）

实验结果表明：采用本发明所述方法对多视图生物数据做一致性功能模块检测，查全率和查准率都有提高，所检测到功能模块结果普遍高于传统检测算法。

Claims

1.一种针对多视图数据融合的蛋白质功能模块挖掘方法，其特征在于包括以下步骤：

步骤1：构建蛋白质相互作用网络PPIN的邻接矩阵A；

每个结点顺序编号并标记为(1,2,…,N)，N为结点总数；结点i、j间的边记为e_ij，且0<i<N,0<j<N；忽略自相关关系，A的对角线元素全部设定为0；相互作用无方向指向，A为对称矩阵；

步骤2：计算基因表达模式的相似程度；

采用Pearson相关系数计算基因表达模式的相似程度，并归一化至[0,1]；

步骤3：计算基因表达谱上的相似矩阵；

将基因共表达相关系数作为e_ij的权重，与PPIN数据结合，获得基因表达谱上的相似矩阵wCO：

wCO_ij＝CoExp_ij×A_ij

其中，CoExp为基因共表达相关系数；×代表元素相乘；

步骤4：提取蛋白质所对应的基因本体标注；

选择基因本体注释信息GO的三个不同知识体系当中的生物过程体系，并选择在生物过程标注体系中每个蛋白质的GO注释条目，用以计算步骤5、6中基因及基因生成物的相似度；

步骤5：计算两注释条目的功能相似度；

给定生物过程BP注释体系中任一个条目c，Ф为BP中从属于c的所有子条目的集合，p(c)表示一个基因被Ф中任一条目所注释的概率，并以负对数形式表示该条目所包含的信息量，即-log(p(c))；计算两个条目的功能相似度，即二者最低层的共有父条目结点的信息量大小，公式如下：

S (c_{i}, c_{j}) = \max_{c &Element; Pa (c_{i}, c_{j})} \frac{2 \times [\log (p (c))]}{\log (p (c_{i})) + \log (p (c_{j}))}

其中，Pa(c_i,c_j)是c_i,c_j共有父条目的集合；

步骤6：计算任意两个蛋白质的功能相似度；

挑选该基因i所具有的任一注释c_u，并找到另一基因j所对应的注释集Θ_j中与c_u具有最大相似度的注释c_w，c_u与c_w间的相似度代表了该注释条目下的最大相似度；累计Θ_i和Θ_j中所有注释条目的最大相似度并取均值，得到两基因的功能相似度，即两蛋白质的相似度S(p_i,p_j)：

S (p_{i}, p_{j}) = \frac{1}{UW} (\underset{u &Element; Θ_{i}}{Σ} \max) (\underset{w &Element; Θ_{j}}{S} (c_{u}, c_{w})) + \underset{w &Element; Θ_{j}}{Σ} \max (\underset{u &Element; Θ_{i}}{S} (c_{u}, c_{w})))

其中，Θ_j，Θ_i是两个蛋白质所对应的注释集，U=|Θ_i|,W=|Θ_i|，分别代表注释集的注释条目数量；

步骤7：融合PPIN数据，得到视图wGO；

将基因功能相似系数S(p_i,p_j)作为PPIN数据的另一权重，与其邻接矩阵结合获得另一PPIN视图wGO：

wGO_ij＝S_ij×A_ij

步骤8：初始化优化目标函数；

基于聚类非负矩阵分解的方法，具体优化目标函数为：

\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{I} {| | A^{(i)} - H^{(i)} S^{(i)} {(H^{(i)})}^{T} | |}_{F}^{2} + \frac{α}{2} Σ_{i = 1}^{I} {| | H^{(i)} - H^{*} | |}_{F}^{2}, \\ S . t . H^{(i)} &GreaterEqual; 0, \\ S^{(i)} &GreaterEqual; 0, \end{matrix}

其中，α≥0,i∈(1,...,I)，代表视图个数，I为视图总数；H^*代表同时最终拟合多个视图的最优统一解；H⁽ⁱ⁾是每个视图的基础分解矩阵，S代表一个仅对角元素非零的方阵，H⁽ⁱ⁾≥0,S⁽ⁱ⁾≥0，表示矩阵中所有元素都为非负值；

两视图wCO和wGO作为蛋白质相似度矩阵输入，即优化目标函数中的A⁽ⁱ⁾；初始化聚类矩阵H、H^*为非负随机矩阵，初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵；

步骤9：循环迭代H,H^*,S,直至目标函数收敛，迭代公式如下：

\begin{matrix} H_{nk}^{(i)} &LeftArrow; H_{nk}^{(i)} {(\frac{2 {(A^{(i)} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{*}}{2 {(H^{(i)} S^{(i)} {(H^{(i)})}^{T} H^{(i)} S^{(i)})}_{nk} + α H_{nk}^{(i)}})}^{\frac{1}{4}} \\ S^{(i)} &LeftArrow; {((H^{(i)}) H^{(i)})}^{- 1} {(H^{(i)})}^{T} A^{(i)} H^{(i)} {({(H^{(i)})}^{T} H^{(i)})}^{- 1} \\ H^{*} &LeftArrow; \frac{1}{I} Σ_{i = 1}^{I} H^{(i)} \end{matrix}

步骤10：将迭代结果H^*归一化至[0,1]，并以一定阈值λ取舍，即如果矩阵H^*中元素hi_j ^*>λ，则蛋白质i属于模块j；通过设置不同的阈值得到具有重叠性质的功能模块结果。