CN112071362A - 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 - Google Patents
一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 Download PDFInfo
- Publication number
- CN112071362A CN112071362A CN202010767169.5A CN202010767169A CN112071362A CN 112071362 A CN112071362 A CN 112071362A CN 202010767169 A CN202010767169 A CN 202010767169A CN 112071362 A CN112071362 A CN 112071362A
- Authority
- CN
- China
- Prior art keywords
- protein
- matrix
- protein complex
- interaction network
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 138
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 122
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 96
- 230000006916 protein interaction Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000008827 biological function Effects 0.000 claims abstract description 6
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 abstract description 7
- 102000007474 Multiprotein Complexes Human genes 0.000 abstract description 2
- 108010085220 Multiprotein Complexes Proteins 0.000 abstract description 2
- 230000004850 protein–protein interaction Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001086 yeast two-hybrid system Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,步骤包括:1)获取多种用于实验测试的蛋白质互作网络数据集并对数据集进行预处理;2)将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;3)依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;4)对步骤3所形成的模型加以多次训练和测试;5)对最终输出的蛋白质复合体进行基因的富集分析,为每个蛋白质复合体标注出其代表的生物功能。本发明融合了蛋白质互作网络的全局和局部拓扑特性,使用改进之后的非负矩阵分解算法构建蛋白质复合体检测模型,具有良好的表现优势,能够更加准确高效的检测出蛋白质复合体。
Description
技术领域
本发明属于生命科学研究领域,具体涉及一种融合全局和局部拓扑结构的蛋白质复合体的检测方法。
背景技术
随着后基因组时代的到来,生命科学研究的重点已经从基因组学转向了蛋白质组学。蛋白质组学的一个重要任务就是从蛋白质-蛋白质相互作用网络中检测出具有一定生物功能的蛋白质复合体。诸如酵母双杂交、微阵列、蛋白质芯片、质谱分析法等生物技术的发展,人类利用这些技术产生了大规模的蛋白质相互作用数据,通过这些相互作用数据可以直接构建蛋白质-蛋白质相互作用网络。其网络的每一个节点代表一个蛋白质,每一条边代表蛋白质和蛋白质之间的相互作用。
蛋白质-蛋白质相互作用网络是生命有机体内一种极其重要的生物分子关系网络,从蛋白质-蛋白质相互作用网络中检测出蛋白质复合体不仅能够揭示细胞组织和功能原理,而且能够预测蛋白质功能模块,在疾病致病基因预测以及药物靶点预测方面具有良好的应用前景。由于蛋白质-蛋白质相互作用网络具有稀疏性和噪声数据的局限性,本发明提出了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,相对于传统的方法,该检测方法能够更准确高效的挖掘出蛋白质复合体。
发明内容
本发明的目的是提供一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,相对于传统的蛋白质复合体检测方法,本发明的方法提高了蛋白质复合体检测的准确率和精度。
本发明所采用的技术方案是,一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,按照以下步骤实施:
步骤1、获取用于实验测试的蛋白质互作网络数据集,并对数据集进行预处理;
步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;
步骤4、对步骤3所形成的模型进行训练和测试,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估;
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,从而检测出待测蛋白质复合体所代表的生物功能。
本发明所采用的技术方案的特点还在于,
步骤1中预处理的具体过程为:获取到的蛋白质互作网络数据集每一行有两个蛋白质节点,将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式,同时保持蛋白质互作网络的整体结构不变即可。
步骤2的具体步骤为:
步骤2.1、求出步骤1预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字依次作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1,即构建出邻接矩阵A。
步骤3具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2中对非负矩阵分解算法加以改进,形成一种新的蛋白质复合体检测模型,其模型对应的目标函数为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置;
步骤3.3、对步骤3.2得到的目标函数进行求解,求解的具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。
步骤4的具体过程为:对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。
步骤5的具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
本发明的有益效果是:本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法,使用了经典的非负矩阵分解算法和子空间聚类算法,非负矩阵分解算法是一种多变量分析方法,在大规模数据分析和处理中具有良好的表现效果。本发明通过融合子空间聚类算法和非负矩阵分解算法的方式,构建了一种新型的蛋白质复合体检测模型。相对于传统的基于生物实验的检测方法,本发明提出的方法具有更好的表现优势,能够更加准确高效的检测出蛋白质互作网络中精确的蛋白质复合体。
附图说明
图1是本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的总流程图;
图2是本发明样本数据集collins的蛋白质网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,为本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的流程示意图,具体按照以下方法进行:
步骤1、获取多种用于实验测试的蛋白质互作网络数据集;图2是本发明使用的一个样本数据集collins的蛋白质互作网络的示意图,对获得的蛋白质互作网络数据集进行预处理,预处理的具体过程为:
获取到的网络数据集每一行有两个蛋白质节点,代表蛋白质互作网络中这两个蛋白质节点相互之间有连接。每个蛋白质节点均为SYMBOL字符串形式,首先需要将其转换成数字形式,也就是使用数字标注出每一个蛋白质节点,同时保持蛋白质互作网络的整体结构不变。
步骤2、将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A,蛋白质互作网络转换成对应邻接矩阵A的具体步骤为:
步骤2.1、求出预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1;至此,邻接矩阵A构建完毕。
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;
非负矩阵分解算法的具体过程为:非负矩阵分解算法是一种多变量分析方法,其基本思想是对于任意给定的一个非负矩阵A,该算法能够寻找到一个非负矩阵U和一个非负矩阵V,使得满足A≈UV,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。假设处理m个n维空间的样本数据,用Xn×m表示。该数据矩阵中各个元素都是非负的,表示为X≥0。对矩阵Xn×m进行线性分解,有Xn×m≈Bn×r×Cr×m
其中,Bn×r称为基矩阵,Cr×m为系数矩阵。由于算法实现的简便和有效性,非负矩阵分解已成为模式识别研究领域中特征提取和数据降维的一种新方法,在高维数据处理中有着广泛的应用前景。
步骤3中构建蛋白质复合体检测模型的具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2、对非负矩阵分解算法加以改进,根据蛋白质互作网络的全局和局部拓扑结构构建出一种新的蛋白质复合体检测模型(INMF),其模型的目标函数min J为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置。
步骤3.3、对步骤3.2的目标函数进行求解,具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。
步骤4、对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估,最终得到的模型即为F-score、Acc、MMR指标值相比于传统的非负矩阵分解算法结果较高时所对应的模型。
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,为每个蛋白质复合体标注出其代表的生物功能。其具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
本发明提供的蛋白质复合体的检测方法,同时考虑了蛋白质互作网络的全局和局部拓扑特性,相对于传统的方法,该检测方法更加简便和高效,具有良好的表现优势。如表1所示,表1为原始的非负矩阵分解算法在数据集collins上的运行结果,当k值为600的时候,结果最好。
表1.原始的非负矩阵分解算法在数据集collins上的运行结果
表2为本发明提出的模型在数据集collins上的运行结果,当k值为300的时候,结果达到最优。对比来看,本发明提出的方法相对于非负矩阵分解算法具有更好的表现优势。
表2.本发明提出的模型在数据集collins上的运行结果
本发明一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,巧妙地使用蛋白质节点的高阶邻居信息和蛋白质节点的相似度矩阵重新构建网络的特征矩阵,再根据非负矩阵分解算法对特征矩阵进行分解,得到对应的划分矩阵,然后根据划分矩阵得到对应的蛋白质复合体,最后,利用基因的富集分析对每个蛋白质复合体进行功能标注。目前,传统的蛋白质复合体检测方法基本上是利用蛋白质互作网络的全局拓扑结构,只考虑了网络中蛋白质节点的一阶邻居信息,没有考虑到与其蛋白质节点没有直接联系的蛋白质节点信息,也就是蛋白质节点的高阶邻居信息。由于蛋白质互作网络具有稀疏性和噪声数据的局限性,这就导致了传统的蛋白质复合体检测方法准确率较低。本发明提供的方法不仅考虑了蛋白质节点的一节邻居信息,而且考虑了蛋白质节点的高阶邻居信息,能更加准确高效的检测出蛋白质复合体。在生物医学领域,本发明提供的方法不仅能够预测蛋白质复合体的潜在生物功能,而且在疾病致病基因预测以及药物靶点预测等方面具有良好的应用前景。
Claims (6)
1.一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,按照以下步骤实施:
步骤1、获取用于实验测试的蛋白质互作网络数据集,并对数据集进行预处理;
步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;
步骤4、对步骤3所形成的模型进行训练和测试,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估;
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,从而检测出待测蛋白质复合体所代表的生物功能。
2.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述的步骤1中预处理的具体过程为:获取到的蛋白质互作网络数据集每一行有两个蛋白质节点,将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式,同时保持蛋白质互作网络的整体结构不变即可。
3.根据权利要求2所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1、求出步骤1预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字依次作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1,即构建出邻接矩阵A。
4.根据权利要求3所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤3具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2中对非负矩阵分解算法加以改进,形成一种新的蛋白质复合体检测模型,其模型对应的目标函数为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn ×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置;
步骤3.3、对步骤3.2得到的目标函数进行求解,求解的具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。
5.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤4的具体过程为:对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。
6.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤5的具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010767169.5A CN112071362B (zh) | 2020-08-03 | 2020-08-03 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010767169.5A CN112071362B (zh) | 2020-08-03 | 2020-08-03 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112071362A true CN112071362A (zh) | 2020-12-11 |
CN112071362B CN112071362B (zh) | 2024-04-09 |
Family
ID=73656833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010767169.5A Active CN112071362B (zh) | 2020-08-03 | 2020-08-03 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112071362B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947149A (zh) * | 2021-10-19 | 2022-01-18 | 大理大学 | 基因模块群的相似性度量方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009149911A2 (en) * | 2008-06-13 | 2009-12-17 | Biocant- Associação De Transferência De Tecnologia | Method for processing protein data |
CN105930688A (zh) * | 2016-04-18 | 2016-09-07 | 福州大学 | 基于改进pso算法的蛋白质功能模块检测方法 |
WO2017185834A1 (zh) * | 2016-04-27 | 2017-11-02 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN108171010A (zh) * | 2017-12-01 | 2018-06-15 | 华南师范大学 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
-
2020
- 2020-08-03 CN CN202010767169.5A patent/CN112071362B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009149911A2 (en) * | 2008-06-13 | 2009-12-17 | Biocant- Associação De Transferência De Tecnologia | Method for processing protein data |
CN105930688A (zh) * | 2016-04-18 | 2016-09-07 | 福州大学 | 基于改进pso算法的蛋白质功能模块检测方法 |
WO2017185834A1 (zh) * | 2016-04-27 | 2017-11-02 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN108171010A (zh) * | 2017-12-01 | 2018-06-15 | 华南师范大学 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
Non-Patent Citations (3)
Title |
---|
余国先;王可尧;傅广垣;王峻;曾安;: "基于多网络数据协同矩阵分解预测蛋白质功能", 计算机研究与发展, no. 12 * |
杨贵;: "一种基于层次图聚类的蛋白质复合体检测算法", 山西师范大学学报(自然科学版), no. 04 * |
洪海燕;刘维;: "基于PPI网络的关键蛋白质的高效预测算法", 计算机科学, no. 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947149A (zh) * | 2021-10-19 | 2022-01-18 | 大理大学 | 基因模块群的相似性度量方法、装置、电子设备及存储介质 |
CN113947149B (zh) * | 2021-10-19 | 2022-08-23 | 大理大学 | 基因模块群的相似性度量方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112071362B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Minimum spanning trees for gene expression data clustering | |
Hu et al. | Mining coherent dense subgraphs across massive biological networks for functional discovery | |
Saha et al. | Dense subgraphs with restrictions and applications to gene annotation graphs | |
Zhang et al. | Uncovering fuzzy community structure in complex networks | |
Liu et al. | Reliable clustering on uncertain graphs | |
Huang et al. | Graphgdp: Generative diffusion processes for permutation invariant graph generation | |
CN106991296B (zh) | 基于随机化贪心特征选择的集成分类方法 | |
Wang et al. | An evolutionary autoencoder for dynamic community detection | |
CN110222745A (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
CN112908414B (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN105718999B (zh) | 一种启发式代谢共表达网络的构建方法及系统 | |
CN114496092B (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
Ma et al. | A review of protein–protein interaction network alignment: From pathway comparison to global alignment | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
Allesina | Predicting trophic relations in ecological networks: a test of the allometric diet breadth model | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
Klie et al. | Biological cluster evaluation for gene function prediction | |
Xue et al. | RepBin: constraint-based graph representation learning for metagenomic binning | |
Ghavasieh et al. | Diversity of information pathways drives sparsity in real-world networks | |
CN112071362B (zh) | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 | |
Liu et al. | A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks | |
Zhen et al. | A review and performance evaluation of clustering frameworks for single-cell Hi-C data | |
Zhao et al. | I/O-efficient calculation of H-group closeness centrality over disk-resident graphs | |
Zhen et al. | A novel framework for single-cell hi-c clustering based on graph-convolution-based imputation and two-phase-based feature extraction | |
Zhang et al. | A hybrid graph-theoretic method for mining overlapping functional modules in large sparse protein interaction networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |