CN112071362B - 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 - Google Patents

一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 Download PDF

Info

Publication number
CN112071362B
CN112071362B CN202010767169.5A CN202010767169A CN112071362B CN 112071362 B CN112071362 B CN 112071362B CN 202010767169 A CN202010767169 A CN 202010767169A CN 112071362 B CN112071362 B CN 112071362B
Authority
CN
China
Prior art keywords
protein
matrix
protein complex
interaction network
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010767169.5A
Other languages
English (en)
Other versions
CN112071362A (zh
Inventor
刘光明
丁翠
王彬
李爱民
刘雅君
罗靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010767169.5A priority Critical patent/CN112071362B/zh
Publication of CN112071362A publication Critical patent/CN112071362A/zh
Application granted granted Critical
Publication of CN112071362B publication Critical patent/CN112071362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,步骤包括:1)获取多种用于实验测试的蛋白质互作网络数据集并对数据集进行预处理;2)将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;3)依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;4)对步骤3所形成的模型加以多次训练和测试;5)对最终输出的蛋白质复合体进行基因的富集分析,为每个蛋白质复合体标注出其代表的生物功能。本发明融合了蛋白质互作网络的全局和局部拓扑特性,使用改进之后的非负矩阵分解算法构建蛋白质复合体检测模型,具有良好的表现优势,能够更加准确高效的检测出蛋白质复合体。

Description

一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
技术领域
本发明属于生命科学研究领域,具体涉及一种融合全局和局部拓扑结构的蛋白质复合体的检测方法。
背景技术
随着后基因组时代的到来,生命科学研究的重点已经从基因组学转向了蛋白质组学。蛋白质组学的一个重要任务就是从蛋白质-蛋白质相互作用网络中检测出具有一定生物功能的蛋白质复合体。诸如酵母双杂交、微阵列、蛋白质芯片、质谱分析法等生物技术的发展,人类利用这些技术产生了大规模的蛋白质相互作用数据,通过这些相互作用数据可以直接构建蛋白质-蛋白质相互作用网络。其网络的每一个节点代表一个蛋白质,每一条边代表蛋白质和蛋白质之间的相互作用。
蛋白质-蛋白质相互作用网络是生命有机体内一种极其重要的生物分子关系网络,从蛋白质-蛋白质相互作用网络中检测出蛋白质复合体不仅能够揭示细胞组织和功能原理,而且能够预测蛋白质功能模块,在疾病致病基因预测以及药物靶点预测方面具有良好的应用前景。由于蛋白质-蛋白质相互作用网络具有稀疏性和噪声数据的局限性,本发明提出了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,相对于传统的方法,该检测方法能够更准确高效的挖掘出蛋白质复合体。
发明内容
本发明的目的是提供一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,相对于传统的蛋白质复合体检测方法,本发明的方法提高了蛋白质复合体检测的准确率和精度。
本发明所采用的技术方案是,一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,按照以下步骤实施:
步骤1、获取用于实验测试的蛋白质互作网络数据集,并对数据集进行预处理;
步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;
步骤4、对步骤3所形成的模型进行训练和测试,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估;
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,从而检测出待测蛋白质复合体所代表的生物功能。
本发明所采用的技术方案的特点还在于,
步骤1中预处理的具体过程为:获取到的蛋白质互作网络数据集每一行有两个蛋白质节点,将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式,同时保持蛋白质互作网络的整体结构不变即可。
步骤2的具体步骤为:
步骤2.1、求出步骤1预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字依次作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1,即构建出邻接矩阵A。
步骤3具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2中对非负矩阵分解算法加以改进,形成一种新的蛋白质复合体检测模型,其模型对应的目标函数为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置;
步骤3.3、对步骤3.2得到的目标函数进行求解,求解的具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
其中,表示两个矩阵之间的点乘;
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。
步骤4的具体过程为:对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。
步骤5的具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
本发明的有益效果是:本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法,使用了经典的非负矩阵分解算法和子空间聚类算法,非负矩阵分解算法是一种多变量分析方法,在大规模数据分析和处理中具有良好的表现效果。本发明通过融合子空间聚类算法和非负矩阵分解算法的方式,构建了一种新型的蛋白质复合体检测模型。相对于传统的基于生物实验的检测方法,本发明提出的方法具有更好的表现优势,能够更加准确高效的检测出蛋白质互作网络中精确的蛋白质复合体。
附图说明
图1是本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的总流程图;
图2是本发明样本数据集collins的蛋白质网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,为本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的流程示意图,具体按照以下方法进行:
步骤1、获取多种用于实验测试的蛋白质互作网络数据集;图2是本发明使用的一个样本数据集collins的蛋白质互作网络的示意图,对获得的蛋白质互作网络数据集进行预处理,预处理的具体过程为:
获取到的网络数据集每一行有两个蛋白质节点,代表蛋白质互作网络中这两个蛋白质节点相互之间有连接。每个蛋白质节点均为SYMBOL字符串形式,首先需要将其转换成数字形式,也就是使用数字标注出每一个蛋白质节点,同时保持蛋白质互作网络的整体结构不变。
步骤2、将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A,蛋白质互作网络转换成对应邻接矩阵A的具体步骤为:
步骤2.1、求出预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1;至此,邻接矩阵A构建完毕。
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;
非负矩阵分解算法的具体过程为:非负矩阵分解算法是一种多变量分析方法,其基本思想是对于任意给定的一个非负矩阵A,该算法能够寻找到一个非负矩阵U和一个非负矩阵V,使得满足A≈UV,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。假设处理m个n维空间的样本数据,用Xn×m表示。该数据矩阵中各个元素都是非负的,表示为X≥0。对矩阵Xn×m进行线性分解,有Xn×m≈Bn×r×Cr×m
其中,Bn×r称为基矩阵,Cr×m为系数矩阵。由于算法实现的简便和有效性,非负矩阵分解已成为模式识别研究领域中特征提取和数据降维的一种新方法,在高维数据处理中有着广泛的应用前景。
步骤3中构建蛋白质复合体检测模型的具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2、对非负矩阵分解算法加以改进,根据蛋白质互作网络的全局和局部拓扑结构构建出一种新的蛋白质复合体检测模型(INMF),其模型的目标函数min J为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置。
步骤3.3、对步骤3.2的目标函数进行求解,具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
其中表示两个矩阵之间的点乘。
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。
步骤4、对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估,最终得到的模型即为F-score、Acc、MMR指标值相比于传统的非负矩阵分解算法结果较高时所对应的模型。
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,为每个蛋白质复合体标注出其代表的生物功能。其具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
本发明提供的蛋白质复合体的检测方法,同时考虑了蛋白质互作网络的全局和局部拓扑特性,相对于传统的方法,该检测方法更加简便和高效,具有良好的表现优势。如表1所示,表1为原始的非负矩阵分解算法在数据集collins上的运行结果,当k值为600的时候,结果最好。
表1.原始的非负矩阵分解算法在数据集collins上的运行结果
表2为本发明提出的模型在数据集collins上的运行结果,当k值为300的时候,结果达到最优。对比来看,本发明提出的方法相对于非负矩阵分解算法具有更好的表现优势。
表2.本发明提出的模型在数据集collins上的运行结果
本发明一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,巧妙地使用蛋白质节点的高阶邻居信息和蛋白质节点的相似度矩阵重新构建网络的特征矩阵,再根据非负矩阵分解算法对特征矩阵进行分解,得到对应的划分矩阵,然后根据划分矩阵得到对应的蛋白质复合体,最后,利用基因的富集分析对每个蛋白质复合体进行功能标注。目前,传统的蛋白质复合体检测方法基本上是利用蛋白质互作网络的全局拓扑结构,只考虑了网络中蛋白质节点的一阶邻居信息,没有考虑到与其蛋白质节点没有直接联系的蛋白质节点信息,也就是蛋白质节点的高阶邻居信息。由于蛋白质互作网络具有稀疏性和噪声数据的局限性,这就导致了传统的蛋白质复合体检测方法准确率较低。本发明提供的方法不仅考虑了蛋白质节点的一节邻居信息,而且考虑了蛋白质节点的高阶邻居信息,能更加准确高效的检测出蛋白质复合体。在生物医学领域,本发明提供的方法不仅能够预测蛋白质复合体的潜在生物功能,而且在疾病致病基因预测以及药物靶点预测等方面具有良好的应用前景。

Claims (4)

1.一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,按照以下步骤实施:
步骤1、获取用于实验测试的蛋白质互作网络数据集,并对数据集进行预处理;
步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;
步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;具体步骤为:
步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;
步骤3.2中对非负矩阵分解算法加以改进,形成一种新的蛋白质复合体检测模型,其模型对应的目标函数为:
其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn ×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置;
步骤3.3、对步骤3.2得到的目标函数进行求解,求解的具体过程为:
首先对目标函数min J求导,结果为:
再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为:
其中,表示两个矩阵之间的点乘;
步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型;
步骤4、对步骤3所形成的模型进行训练和测试,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估;
步骤5、对最终输出的蛋白质复合体进行基因的富集分析,从而检测出待测蛋白质复合体所代表的生物功能;
步骤5的具体步骤为:
步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;
步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值;
其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;
步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。
2.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述的步骤1中预处理的具体过程为:获取到的蛋白质互作网络数据集每一行有两个蛋白质节点,将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式,同时保持蛋白质互作网络的整体结构不变即可。
3.根据权利要求2所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1、求出步骤1预处理之后网络数据集的最大值n,构建一个n×n的初始矩阵A;
步骤2.2、按行遍历网络数据集,将每一行的两个蛋白质节点数字依次作为i、j,并且将初始矩阵A[i][j]置1,其余的置0;
步骤2.3、将初始矩阵A的主对角线元素置1,即构建出邻接矩阵A。
4.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,所述步骤4的具体过程为:对步骤3形成的模型,使用蛋白质互作网络数据集进行多次训练,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。
CN202010767169.5A 2020-08-03 2020-08-03 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 Active CN112071362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767169.5A CN112071362B (zh) 2020-08-03 2020-08-03 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767169.5A CN112071362B (zh) 2020-08-03 2020-08-03 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

Publications (2)

Publication Number Publication Date
CN112071362A CN112071362A (zh) 2020-12-11
CN112071362B true CN112071362B (zh) 2024-04-09

Family

ID=73656833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767169.5A Active CN112071362B (zh) 2020-08-03 2020-08-03 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

Country Status (1)

Country Link
CN (1) CN112071362B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947149B (zh) * 2021-10-19 2022-08-23 大理大学 基因模块群的相似性度量方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009149911A2 (en) * 2008-06-13 2009-12-17 Biocant- Associação De Transferência De Tecnologia Method for processing protein data
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
WO2017185834A1 (zh) * 2016-04-27 2017-11-02 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009149911A2 (en) * 2008-06-13 2009-12-17 Biocant- Associação De Transferência De Tecnologia Method for processing protein data
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
WO2017185834A1 (zh) * 2016-04-27 2017-11-02 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于层次图聚类的蛋白质复合体检测算法;杨贵;;山西师范大学学报(自然科学版)(第04期);全文 *
基于PPI网络的关键蛋白质的高效预测算法;洪海燕;刘维;;计算机科学(第S2期);全文 *
基于多网络数据协同矩阵分解预测蛋白质功能;余国先;王可尧;傅广垣;王峻;曾安;;计算机研究与发展(第12期);全文 *

Also Published As

Publication number Publication date
CN112071362A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN110222745B (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
Hu et al. Mining coherent dense subgraphs across massive biological networks for functional discovery
CN106991296B (zh) 基于随机化贪心特征选择的集成分类方法
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
CN105718999B (zh) 一种启发式代谢共表达网络的构建方法及系统
Van der Laan et al. A new algorithm for hybrid clustering of gene expression data with visualization and the bootstrap
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN114496092A (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN114218292A (zh) 一种多元时间序列相似性检索方法
Cheng et al. Neighbor similarity based agglomerative method for community detection in networks
Klie et al. Biological cluster evaluation for gene function prediction
Balcan et al. Learning to link
CN113052367A (zh) 一种基于集成机器学习高效预测钙钛矿的稳定性的方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
CN116386729A (zh) 一种基于图神经网络的scRNA-seq数据降维方法
CN112071362B (zh) 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
CN116741273A (zh) 一种识别空间转录组空间区域和细胞类型的特征学习方法
CN112908414B (zh) 一种大规模单细胞分型方法、系统及存储介质
CN117423391A (zh) 一种基因调控网络数据库的建立方法、系统及设备
Zhen et al. A review and performance evaluation of clustering frameworks for single-cell Hi-C data
Zhen et al. A novel framework for single-cell hi-c clustering based on graph-convolution-based imputation and two-phase-based feature extraction
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN112733926A (zh) 一种基于半监督的多层网络聚类方法
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant