CN103559426A - 一种针对多视图数据融合的蛋白质功能模块挖掘方法 - Google Patents

一种针对多视图数据融合的蛋白质功能模块挖掘方法 Download PDF

Info

Publication number
CN103559426A
CN103559426A CN201310545984.7A CN201310545984A CN103559426A CN 103559426 A CN103559426 A CN 103559426A CN 201310545984 A CN201310545984 A CN 201310545984A CN 103559426 A CN103559426 A CN 103559426A
Authority
CN
China
Prior art keywords
protein
matrix
annotation
gene
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310545984.7A
Other languages
English (en)
Inventor
贾克斌
张媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201310545984.7A priority Critical patent/CN103559426A/zh
Publication of CN103559426A publication Critical patent/CN103559426A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘领域,公开了一种针对多视图数据融合的蛋白质功能模块挖掘方法。首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。本发明提出一种针对多视图数据融合的蛋白质功能模块挖掘方法,着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。本发明尤其适用于蛋白质相互作用网络和生物数据,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。

Description

一种针对多视图数据融合的蛋白质功能模块挖掘方法
技术领域
本发明属于数据挖掘领域,涉及一种融合多种生物数据源和蛋白质相互作用网络(Protein-protein interaction network,PPIN)的蛋白质功能模块检测方法。
背景技术
基于蛋白质相互作用网络分析蛋白质的具体功能是目前生物信息学研究中的一大热点。蛋白质相互作用(Protein-protein interaction,PPI)描述的是两个蛋白质间的物理直接连接,或者具有一致功能的两个蛋白质的间接连系。PPIN以每个蛋白质为结点,两个蛋白质间的相互关系作为两结点的边,形成一无向图。在生物体内,多数蛋白质通过相互作用形成功能意义上紧密联系的集合,也就是功能模块,从而共同执行相应的一种或多种生命活动,因此分析PPI功能意义是了解和掌握生命活动的分子机制的基础。至今,学术各界已提出多种聚类方法用来检测PPIN中的功能模块,其中基于非监督学习的聚类方法是最常用的PPI模块挖掘方法。然而,由于PPI数据的高噪声和不完整性,聚类结果大多不能令人满意。有学者证实酵母双杂交实验(Yeast Two-Hybrid)所检测到的PPI的误报率(False Positive)可达50%。基于如此大噪声比例的数据,单纯依据PPIN的拓扑特征不能保证得到可靠的功能模块检测结果。。这也是之前一些传统功能模块挖掘方法,如MCODE,CFinder,马尔科夫聚类(MarkovClustering,MCL)等方法的一大掣肘。
近年来生物数据收集方法日新月异,结合多种数据对PPI进行研究成为可能。首先,基因表达数据被用于寻找共表达的基因和基因产物。这一方法的基本假设是,在一段生命过程中表达模式相似的基因(或基因产物)倾向具有相同的功能,同时在PPIN中也更倾向于相互联系形成密集功能模块。Segal等人依据基因共表达的模式特征来提取功能模块;Li和Wu将基因共表达作为PPIN权重进行网络分析。另一方面,Cho等人利用基因本体注释信息(GeneOntology,GO)计算蛋白质相似度,并据此构建了蛋白质功能流在网络中的传输模型,功能流所到之处被划分为同一功能模块。这一方法体现了蛋白质功能在网络中的动态传递概念,并解决了多功能蛋白质的多功能模块从属,即功能模块的重叠问题。
这些方法均达到一定程度的成功。然而不同的数据各有倾向:基因共表达倾向于检测细胞生命过程中表达模式一致的蛋白质群,而GO则是静态描述的功能信息。同时,二者各有弊端:首先,基因表达数据在收集过程中,实验本身引入的噪声不可避免;其次,由于人类技术所限,还有丰富的基因功能特质依然未知,GO注释信息也仍在不断完善。将每个角度所获得的数据看做一个视图。如何从多视图中提取出最准确的信息是生物信息学及数据挖掘界一直面临的难题。
发明内容
针对蛋白质相互作用数据的高噪声问题,提出一种针对多视图数据融合的蛋白质功能模块挖掘方法。本方法着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。该方法尤其适用于蛋白质相互作用网络和多生物数据的融合分析,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。
本发明所采取的技术方案是:首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。
一种针对多视图数据融合的蛋白质功能模块挖掘方法,包括以下步骤:
步骤1:构建蛋白质相互作用网络的邻接矩阵A。
每个结点顺序编号并标记为(1,2,…,N),N为结点总数。结点i、j间的边记为eij,且0<i<N,0<j<N;忽略自相关关系,A的对角线元素全部设定为0。由于相互作用无方向指向,因此A为对称矩阵。
步骤2:计算基因表达模式的相似程度。
采用Pearson相关系数计算基因表达模式的相似程度,并归一化至[0,1]。
步骤3:计算基因表达谱上的相似矩阵。
将基因共表达相关系数作为eij的权重,与PPIN结合,获得基因表达谱上的相似矩阵wCO:
wCOij=CoExpij×Aij
其中,CoExp为基因共表达相关系数;×代表元素相乘。
步骤4:提取蛋白质所对应的基因本体标注。
选择GO的三个不同知识体系当中的生物过程(Biological Process,BP)体系,并选择在BP标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度。
步骤5:计算两注释条目的功能相似度。
采用基于信息量(Information Content,IC)的方法,即测量比较任意两条目间共同的信息量大小,计算两注释条目的功能相似度,方法如下:
给定BP注释体系中任一个条目c,Ф为BP中从属于c的所有子条目的集合,p(c)表示一个基因被Ф中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即-log(p(c))。计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:
S ( c i , c j ) = max c &Element; Pa ( c i , c j ) 2 &times; [ log ( p ( c ) ) ] log ( p ( c i ) ) + log ( p ( c j ) )
其中,Pa(ci,cj)是ci,cj共有父条目的集合。
步骤6:计算任意两个蛋白质的功能相似度。
基于上述两注释相似度的计算结果,考虑到基因通常被多条GO注释,故计算两基因i和j的功能相似度,首先挑选该基因i所具有的任一注释cu,并找到另一基因j所对应的注释集Θj中与cu具有最大相似度的注释cw,而cu与cw间的相似度代表了该注释条目下的最大相似度。累计Θi和Θj中所有注释条目的最大相似度并取均值,得到两基因的功能相似度,即两蛋白质的相似度S(pi,pj):
S ( p i , p j ) = 1 UW ( &Sigma; u &Element; &Theta; i max ) ( S w &Element; &Theta; j ( c u , c w ) ) + &Sigma; w &Element; &Theta; j max ( S u &Element; &Theta; i ( c u , c w ) ) )
其中,Θj,Θi是两个蛋白质所对应的注释集,U=|Θi|,W=|Θi|,分别代表了注释集的注释条目数量。
步骤7:融合PPIN数据,得到视图wGO。
将基因功能相似系数S(pi,pj)作为PPIN的另一权重,与其邻接矩阵结合获得另一PPIN视图wGO:
wGOij=Sij×Aij
步骤8:初始化优化目标函数。
本发明是基于聚类非负矩阵分解的方法,具体优化目标函数为:
min 1 2 &Sigma; i = 1 I | | A ( i ) - H ( i ) S ( i ) ( H ( i ) ) T | | F 2 + &alpha; 2 &Sigma; i = 1 I | | H ( i ) - H * | | F 2 , S . t . H ( i ) &GreaterEqual; 0 , S ( i ) &GreaterEqual; 0 ,
其中,α≥0,i∈(1,...,I),代表视图个数,I为视图总数。H*代表同时最终拟合多个视图的最优统一解;H(i)是每个视图的基础分解矩阵,S代表一个仅对角元素非零的方阵,H(i)≥0,S(i)≥0,表示矩阵中所有元素都为非负值。
两视图wCO和wGO作为蛋白质相似度矩阵输入,即本发明的优化目标函数中的A(i);初始化聚类矩阵H、H*为非负随机矩阵,初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵。
步骤9:循环迭代H,H*,S,直至目标函数收敛,迭代公式如下:
H nk ( i ) &LeftArrow; H nk ( i ) ( 2 ( A ( i ) H ( i ) S ( i ) ) nk + &alpha; H nk * 2 ( H ( i ) S ( i ) ( H ( i ) ) T H ( i ) S ( i ) ) nk + &alpha; H nk ( i ) ) 1 4 S ( i ) &LeftArrow; ( ( H ( i ) ) H ( i ) ) - 1 ( H ( i ) ) T A ( i ) H ( i ) ( ( H ( i ) ) T H ( i ) ) - 1 H * &LeftArrow; 1 I &Sigma; i = 1 I H ( i )
步骤10:将迭代结果H*归一化至[0,1],并以一定阈值λ取舍,即如果矩阵H*中元素hij *>λ,则蛋白质i属于模块j。通过设置不同的阈值得到具有重叠性质的功能模块结果。
与现有技术相比,本发明具有以下优点:
(1)本发明能够从多种不同数据源中提取互补确信信息,检测出蛋白质相互作用网络中的功能模块。
(2)本发明利用聚合矩阵分解概念,将一致性检测问题转化为寻找多视图的共同基础矩阵问题,且依据图邻接相似度矩阵的对称性质提出了更为适用的优化函数。实验结果显示,本发明方法所检测到的功能模块结果更准确。
附图说明
图1为本发明所涉及的方法流程图;
图2为本发明与其它方法在两个不同PPIN数据集上准确度的比较,(a)中数据来自TAP数据,(b)中数据来自Biogrid数据库,本发明所述方法标记为CoNMF;
图3为本发明在TAP数据集上检测到的部分功能模块的结构图。
具体实施方案
下面结合附图及实施例对本发明做进一步说明。
本发明所采用的多数据/视图集成的非负矩阵分解方法,其基本思想是:具有相同功能的蛋白质一般在相互作用网络中倾向紧密联系,在基因表达谱中具有相似表达模式,同时在基因功能标注系统中也倾向于具有相似的语义信息。为检测多视图中的一致信息,本发明将多视图A(i)变换为基础向量的线性组合,采用三因子乘积计算多视图的近似分解结果;同时加入限定惩罚因子以引导目标函数收敛的同时,得到最优的一致性模块检测结果。
本实施例的多数据融合实验分别在两组PPIN数据进行。其一来自Gavin等人的工作,该PPI信息来源于串联亲和纯化提取方法(Tandem Affinity Purification,TAP),包含2,551个蛋白质和21,413个相互作用。另一组PPIN数据来自Biogrid数据库。在实验中,剔除了Biogrid中不存在对应基因表达的蛋白质,得到一个包含4,531结点和其间143,226个相互作用的PPIN。本实施例实验中所用的GO数据下载自http://www.geneontology.org/.GO注释信息中,存在一些尚没有交叉验证的信息,为了取得更准确的相似度信息,本实施例实验中单独提取并使用仅提取经实验或专家验证后的注释条目,即IDA,IEP,IGI,IMP,IPI,RCA和TAS证据码下的GO注释,而排除IC,IEA,ISS,NAS及ND条目。基因表达数据来自GEO数据库(Gene ExpressionOmnibus),其检索号为GSE12055。
针对多视图数据融合的蛋白质功能模块挖掘方法的流程图如图1所示,包括以下步骤:
步骤1:根据已有PPIN数据,构建蛋白质相互作用网络的邻接矩阵A。
步骤2:根据GSE12055中的基因表达谱数据,计算基因表达模式的相似程度。
步骤3:计算基因表达谱上的相似矩阵。
步骤4:从所下载的GO数据中,提取蛋白质所对应的基因本体标注。
步骤5:计算两注释条目的功能相似度。
步骤6:计算任意两个蛋白质的功能相似度。
步骤7:融合PPIN数据,得到视图wGO。
步骤8:根据本发明方法中的目标函数,初始化相应变量。
其中,两视图wCO和wGO作为蛋白质相似度矩阵输入,即本发明方法的优化目标函数中的A(i);初始化聚类矩阵H,H*为非负随机矩阵,初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵。
步骤9:循环迭代H,H*,S,直至目标函数收敛。
该迭代算法包括三个步骤:
(1)给定H(i),H*,求解S(i),S(i)的更新迭代公式:
S(i)←((H(i))TH(i))-1(H(i))TA(i)H(i)((H(i))TH(i))-1
(2)固定S(i),H*,求解H(i),求解H(i)的迭代公式如下:
H nk ( i ) &LeftArrow; H nk ( i ) ( 2 ( A ( i ) H ( i ) S ( i ) ) nk + &alpha; H nk * 2 ( H ( i ) S ( i ) ( H ( i ) ) T H ( i ) S ( i ) ) nk + &alpha; H nk ( i ) ) 1 4
(3)给定H(i),S(i),求解H*,公式如下:
H * &LeftArrow; 1 I &Sigma; i = 1 I H ( i )
重复迭代(1)~(3),最终达到目标函数的收敛。
步骤10:将迭代结果H*归一化至[0,1],并以一定阈值λ取舍,即如果矩阵H*中元素hij *>λ,则蛋白质i属于模块j。通过设置不同的阈值得到具有重叠性质的功能模块结果。本实例中的阈值λ设为0.72,以达到最佳模块检测效果。
本实施例以CYC2008数据集做为校验标准,该数据集包含了408个酵母蛋白质功能模块,所有模块均经由小规模试验验证或有相关文献支持。实验中用查全率(Recall Rate,Rec)、查准率(Precision Rate,Prec)和二者融合的F度量(F-measure,F)值验证算法检测到的功能模块与CYC2008标准数据集的一致性。上述衡量指标的计算方法如下:
Prec=TP/(TP+FN)
Rec=TP/(TP+FP)
F = 2 &times; Prec &times; Rec Prec + Rec
其中,TP代表True Positive,真正性结果,即算法检测到的正确的模块;FP代表FalsePositive,假正性结果,即算法未检测到但在标准数据中存在的正确模块;FN为False Negative,假负性结果,算法检测到但标准数据中不存在的模块。
实验选取多种方法与本发明进行比较。其中,MCODE,CFinder,RRW均仅利用PPIN的拓扑结构。MCODE采用了一种贪婪算法将权重PPIN划分为紧密联系的子区域;CFinder采用基于全连通团(clique)的概念扩张网络中团成员形成功能模块;RRW是通过可重启的随机行走方法寻找起始节点可到达的结点组成功能模块。KerSpe采用了核函数方法融合多视图数据,并由谱聚类算法检测功能模块;WeiSum直接采取了多视图数据的权重融合,后续聚类算法也采用了谱聚类算法。此外,INENS,CLENS及HBGP是三种传统的聚类集成算法。以上八种方法作为本实例的基本比较算法。
如图2所示,本发明所提出算法CoNMF在Biogrid数据集上达到最高的F值,综合指标明显优于其它比较算法。基于PPIN拓扑结构的三种算法在TAP这一相对较精确且数据集较小的PPIN中精确度较高,但在Biogrid数据集上其结果则相对不及其它算法,这是因为基于PPIN拓扑结构的算法较易受数据集大小和噪声的影响,检测结果不稳定。同时发现直接以权重叠加不同视图的WeiSum算法同样在TAP数据上表现较为理想。WeiSum对Biogrid数据明显优于MCODE等三种算法,这说明了多视图融合的必要性。本发明与其它数据融合算法及聚类集成算法相比,CoNMF在Biogrid数据的检测结果要好于其它算法,其提高程度明显优于在TAP数据上的表现。由此得出结论,本发明所对噪声较大且数据集也较大的情况下提高较为显著。
表1给出了不同方法在两数据集上的结果,表中本发明方法标记为CoNMF。除查准率、查全率和F值外,表1统计了准确查找到的功能模块数、模块平均大小、准确查找到的模块覆盖蛋白质数目和属于多个模块的蛋白质数目。由比较结果看到,本发明检测出的功能模块平均大小更大,覆盖更多的蛋白质,同时所得结果允许某些蛋白质存在于多个功能模块,解决了模块的重叠问题。
以P-value为基准分析所得模块的GO富集度,P-value值越小说明该功能模块越可能具有该GO条目所注释的功能。一般文献中以P-value<0.05为准。图3为随机选取的模块实例,其中模块1~6的GO富集情况见表2,本实施例实验中所提取的蛋白质功能模块在GO富集度上表现出极高的一致性。因此,本发明能够发现具有实际生物学意义的蛋白质功能模块。
表1算法比较
Figure BDA0000409214420000071
表2部分结果的GO注释富集度分析(TAP)
Figure BDA0000409214420000072
Figure BDA0000409214420000081
Figure BDA0000409214420000091
实验结果表明:采用本发明所述方法对多视图生物数据做一致性功能模块检测,查全率和查准率都有提高,所检测到功能模块结果普遍高于传统检测算法。

Claims (1)

1.一种针对多视图数据融合的蛋白质功能模块挖掘方法,其特征在于包括以下步骤:
步骤1:构建蛋白质相互作用网络PPIN的邻接矩阵A;
每个结点顺序编号并标记为(1,2,…,N),N为结点总数;结点i、j间的边记为eij,且0<i<N,0<j<N;忽略自相关关系,A的对角线元素全部设定为0;相互作用无方向指向,A为对称矩阵;
步骤2:计算基因表达模式的相似程度;
采用Pearson相关系数计算基因表达模式的相似程度,并归一化至[0,1];
步骤3:计算基因表达谱上的相似矩阵;
将基因共表达相关系数作为eij的权重,与PPIN数据结合,获得基因表达谱上的相似矩阵wCO:
wCOij=CoExpij×Aij
其中,CoExp为基因共表达相关系数;×代表元素相乘;
步骤4:提取蛋白质所对应的基因本体标注;
选择基因本体注释信息GO的三个不同知识体系当中的生物过程体系,并选择在生物过程标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度;
步骤5:计算两注释条目的功能相似度;
给定生物过程BP注释体系中任一个条目c,Ф为BP中从属于c的所有子条目的集合,p(c)表示一个基因被Ф中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即-log(p(c));计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:
S ( c i , c j ) = max c &Element; Pa ( c i , c j ) 2 &times; [ log ( p ( c ) ) ] log ( p ( c i ) ) + log ( p ( c j ) )
其中,Pa(ci,cj)是ci,cj共有父条目的集合;
步骤6:计算任意两个蛋白质的功能相似度;
挑选该基因i所具有的任一注释cu,并找到另一基因j所对应的注释集Θj中与cu具有最大相似度的注释cw,cu与cw间的相似度代表了该注释条目下的最大相似度;累计Θi和Θj中所有注释条目的最大相似度并取均值,得到两基因的功能相似度,即两蛋白质的相似度S(pi,pj):
S ( p i , p j ) = 1 UW ( &Sigma; u &Element; &Theta; i max ) ( S w &Element; &Theta; j ( c u , c w ) ) + &Sigma; w &Element; &Theta; j max ( S u &Element; &Theta; i ( c u , c w ) ) )
其中,Θj,Θi是两个蛋白质所对应的注释集,U=|Θi|,W=|Θi|,分别代表注释集的注释条目数量;
步骤7:融合PPIN数据,得到视图wGO;
将基因功能相似系数S(pi,pj)作为PPIN数据的另一权重,与其邻接矩阵结合获得另一PPIN视图wGO:
wGOij=Sij×Aij
步骤8:初始化优化目标函数;
基于聚类非负矩阵分解的方法,具体优化目标函数为:
min 1 2 &Sigma; i = 1 I | | A ( i ) - H ( i ) S ( i ) ( H ( i ) ) T | | F 2 + &alpha; 2 &Sigma; i = 1 I | | H ( i ) - H * | | F 2 , S . t . H ( i ) &GreaterEqual; 0 , S ( i ) &GreaterEqual; 0 ,
其中,α≥0,i∈(1,...,I),代表视图个数,I为视图总数;H*代表同时最终拟合多个视图的最优统一解;H(i)是每个视图的基础分解矩阵,S代表一个仅对角元素非零的方阵,H(i)≥0,S(i)≥0,表示矩阵中所有元素都为非负值;
两视图wCO和wGO作为蛋白质相似度矩阵输入,即优化目标函数中的A(i);初始化聚类矩阵H、H*为非负随机矩阵,初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵;
步骤9:循环迭代H,H*,S,直至目标函数收敛,迭代公式如下:
H nk ( i ) &LeftArrow; H nk ( i ) ( 2 ( A ( i ) H ( i ) S ( i ) ) nk + &alpha; H nk * 2 ( H ( i ) S ( i ) ( H ( i ) ) T H ( i ) S ( i ) ) nk + &alpha; H nk ( i ) ) 1 4 S ( i ) &LeftArrow; ( ( H ( i ) ) H ( i ) ) - 1 ( H ( i ) ) T A ( i ) H ( i ) ( ( H ( i ) ) T H ( i ) ) - 1 H * &LeftArrow; 1 I &Sigma; i = 1 I H ( i )
步骤10:将迭代结果H*归一化至[0,1],并以一定阈值λ取舍,即如果矩阵H*中元素hij *>λ,则蛋白质i属于模块j;通过设置不同的阈值得到具有重叠性质的功能模块结果。
CN201310545984.7A 2013-11-06 2013-11-06 一种针对多视图数据融合的蛋白质功能模块挖掘方法 Pending CN103559426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310545984.7A CN103559426A (zh) 2013-11-06 2013-11-06 一种针对多视图数据融合的蛋白质功能模块挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310545984.7A CN103559426A (zh) 2013-11-06 2013-11-06 一种针对多视图数据融合的蛋白质功能模块挖掘方法

Publications (1)

Publication Number Publication Date
CN103559426A true CN103559426A (zh) 2014-02-05

Family

ID=50013672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310545984.7A Pending CN103559426A (zh) 2013-11-06 2013-11-06 一种针对多视图数据融合的蛋白质功能模块挖掘方法

Country Status (1)

Country Link
CN (1) CN103559426A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615914A (zh) * 2015-02-25 2015-05-13 重庆大学 一种基于权重支持率的高通量筛选数据噪声抑制方法和装置
CN104834746A (zh) * 2015-05-23 2015-08-12 华东交通大学 基于图形处理单元的异构特征时序数据演化聚类方法
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN105653885A (zh) * 2016-03-23 2016-06-08 华南理工大学 基于多实例多类标的马尔可夫链注释蛋白质功能的方法
CN105956413A (zh) * 2016-04-27 2016-09-21 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN106485096A (zh) * 2016-10-20 2017-03-08 中南大学 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法
CN106991295A (zh) * 2017-03-31 2017-07-28 安徽大学 一种基于多目标优化的蛋白质网络模块挖掘方法
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN111046745A (zh) * 2019-11-20 2020-04-21 北京工业大学 基于软块对角的多视聚类方法
CN111370060A (zh) * 2020-03-21 2020-07-03 广西大学 一种蛋白质互作网络共定位共表达复合物识别系统及方法
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311198B1 (en) * 1997-08-06 2001-10-30 International Business Machines Corporation Method and system for threading documents
KR20040102887A (ko) * 2003-05-30 2004-12-08 학교법인 인하학원 단백질 상호작용 네트워크의 시각화방법
US20070136002A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Method and system for synchronizing protein information of PPI network DB
CN103235900A (zh) * 2013-03-28 2013-08-07 中山大学 蛋白质复合体挖掘的加权组装聚类方法
CN103279690A (zh) * 2013-06-16 2013-09-04 中国医学科学院医学信息研究所 一种医学信息排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311198B1 (en) * 1997-08-06 2001-10-30 International Business Machines Corporation Method and system for threading documents
KR20040102887A (ko) * 2003-05-30 2004-12-08 학교법인 인하학원 단백질 상호작용 네트워크의 시각화방법
US20070136002A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Method and system for synchronizing protein information of PPI network DB
CN103235900A (zh) * 2013-03-28 2013-08-07 中山大学 蛋白质复合体挖掘的加权组装聚类方法
CN103279690A (zh) * 2013-06-16 2013-09-04 中国医学科学院医学信息研究所 一种医学信息排序方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
DITTRICH M T,ET AL.,: "Identifying functional modules in protein–protein interaction networks: an integrated exact approach", 《BIOINFORMATICS》, 31 December 2008 (2008-12-31), pages 223 - 231 *
GAO J, ET AL.,: "A Graph-Based Consensus Maximization Approach for Combining Multiple Supervised and Unsupervised Models", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 》, vol. 25, no. 1, 31 January 2013 (2013-01-31), pages 15 - 28, XP011492734, DOI: doi:10.1109/TKDE.2011.206 *
KIM H, ET AL.,: "Nonnegative Matrix Factorization Based on Alternating Nonnegativity Constrained Least Squares and Active Set Method", 《SIAM JOURNAL ON MATRIX ANALYSIS & APPLICATIONS》, vol. 30, no. 2, 31 December 2008 (2008-12-31), pages 713 - 730 *
KIM J,ET AL.,: "Sparse Nonnegative Matrix Factorization for Clustering", 《GEORGIA INSTITUTE OF TECHNOLOGY》, 31 December 2008 (2008-12-31), pages 1 - 15 *
LIN D.: "An Information-Theoretic Definition of Similarity", 《PROCEEDINGS OF THE FIFTEENTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, 31 December 1998 (1998-12-31), pages 296 - 304 *
ZHANG Y, ET AL.,: "A graph-based cluster ensemble method to detect protein functional modules from multiple information sources", 《PROCEEDINGS OF THE ACM CONFERENCE ON BIOINFORMATICS, COMPUTATIONAL BIOLOGY AND BIOMEDICINE》, 31 December 2012 (2012-12-31), pages 567 - 569 *
ZHANG Y,ET AL.,: "A collective NMF method for detecting protein functional module from multiple data sources", 《PROCEEDINGS OF THE ACM CONFERENCE ON BIOINFORMATICS, COMPUTATIONAL BIOLOGY AND BIOMEDICINE》, 31 December 2012 (2012-12-31), pages 655 - 660 *
ZHANG YUAN,ET AL.,: "Co-regulated Protein Functional Modules with Varying Activities in Dynamic PPI Networks", 《TSINGHUA SCIENCE AND TECHNOLOGY》, vol. 18, no. 5, 31 October 2013 (2013-10-31), pages 530 - 540 *
尤著宏: "基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究", 《中国博士学位论文全文数据库基础科学辑(月刊 )》, no. 07, 15 July 2011 (2011-07-15), pages 006 - 39 *
黎刚果等: "结合蛋白质相互作用数据进行基因表达数据聚类", 《生物信息学》, vol. 7, no. 4, 31 December 2009 (2009-12-31), pages 280 - 283 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615914B (zh) * 2015-02-25 2017-08-25 中国科学院重庆绿色智能技术研究院 一种基于权重支持率的高通量筛选数据噪声抑制方法和装置
CN104615914A (zh) * 2015-02-25 2015-05-13 重庆大学 一种基于权重支持率的高通量筛选数据噪声抑制方法和装置
CN104834746A (zh) * 2015-05-23 2015-08-12 华东交通大学 基于图形处理单元的异构特征时序数据演化聚类方法
CN104834746B (zh) * 2015-05-23 2017-12-12 华东交通大学 基于图形处理单元的异构特征时序数据演化聚类方法
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN105653885A (zh) * 2016-03-23 2016-06-08 华南理工大学 基于多实例多类标的马尔可夫链注释蛋白质功能的方法
CN105956413A (zh) * 2016-04-27 2016-09-21 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN105956413B (zh) * 2016-04-27 2019-08-06 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN106485096A (zh) * 2016-10-20 2017-03-08 中南大学 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法
CN106485096B (zh) * 2016-10-20 2019-03-26 中南大学 基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法
CN106991295A (zh) * 2017-03-31 2017-07-28 安徽大学 一种基于多目标优化的蛋白质网络模块挖掘方法
CN106991295B (zh) * 2017-03-31 2019-06-21 安徽大学 一种基于多目标优化的蛋白质网络模块挖掘方法
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107016261B (zh) * 2017-04-11 2019-10-11 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109166604B (zh) * 2018-08-22 2021-07-02 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN111046745A (zh) * 2019-11-20 2020-04-21 北京工业大学 基于软块对角的多视聚类方法
CN111046745B (zh) * 2019-11-20 2023-08-04 北京工业大学 基于软块对角的多视聚类方法
CN111370060A (zh) * 2020-03-21 2020-07-03 广西大学 一种蛋白质互作网络共定位共表达复合物识别系统及方法
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备

Similar Documents

Publication Publication Date Title
CN103559426A (zh) 一种针对多视图数据融合的蛋白质功能模块挖掘方法
CN109891508B (zh) 单细胞类型检测方法、装置、设备和存储介质
CN108733976B (zh) 基于融合生物与拓扑特征的关键蛋白质识别方法
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
Sree et al. Identification of protein coding regions in genomic DNA using unsupervised FMACA based pattern classifier
CN105139031A (zh) 一种基于子空间聚类的数据处理方法
CN103425994A (zh) 一种用于模式分类的特征选择方法
Naim et al. Swift: scalable weighted iterative sampling for flow cytometry clustering
Khalilian et al. A novel k-means based clustering algorithm for high dimensional data sets
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
Huang et al. An ensemble hierarchical clustering algorithm based on merits at cluster and partition levels
Wang et al. m6AGE: a predictor for n6-methyladenosine sites identification utilizing sequence characteristics and graph embedding-based geometrical information
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN116157537A (zh) 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统
Bhavani et al. Feature selection using correlation fractal dimension: Issues and applications in binary classification problems
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
Wang et al. Feature selection methods in the framework of mRMR
Renjith et al. An empirical research and comparative analysis of clustering performance for processing categorical and numerical data extracts from social media
Elbatta et al. A vibration method for discovering density varied clusters
Priscilla et al. A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data
Gou et al. Effective and efficient community search with graph embeddings
Chen et al. Similarity fusion via exploiting high order proximity for cancer subtyping
Das et al. A new approach for clustering gene expression time series data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication