CN113470738B - 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 - Google Patents

基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 Download PDF

Info

Publication number
CN113470738B
CN113470738B CN202110752082.5A CN202110752082A CN113470738B CN 113470738 B CN113470738 B CN 113470738B CN 202110752082 A CN202110752082 A CN 202110752082A CN 113470738 B CN113470738 B CN 113470738B
Authority
CN
China
Prior art keywords
protein
module
semantic similarity
matrix
gene ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110752082.5A
Other languages
English (en)
Other versions
CN113470738A (zh
Inventor
胡伦
潘翔宇
周喜
蒋同海
苏小芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110752082.5A priority Critical patent/CN113470738B/zh
Publication of CN113470738A publication Critical patent/CN113470738A/zh
Application granted granted Critical
Publication of CN113470738B publication Critical patent/CN113470738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。

Description

基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物 识别方法和系统
技术领域
本发明涉及计算机数据处理技术领域和计算生物学领域,特别涉及基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统。
背景技术
目前,现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来完成复合物识别工作,即根据网络中蛋白质之间是否存在相互作用,来识别出具有某些特定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、k-cliques结构和核心附着结构。然而,仅基于特定拓扑结构的蛋白质复合物识别方法忽视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息,这些信息从三个方面描述了蛋白质的功能,即分子功能、细胞组分和生物过程。对基因本体信息的忽视会使得更具有生物学意义的蛋白质复合物无法被发现。此外,一些已知的蛋白质复合物是彼此重叠的,如果不能考虑蛋白质复合物间的重叠性,则所识别出的蛋白质复合物在准确性方面可能会有所不足。
尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法,但它们均未考虑基因本体语义信息中所固有的完整有向无环图关系,因此所识别的蛋白质复合物在准确性上表现欠佳。
发明内容
本发明的目的在于,针对现有技术中的缺陷和不足,提供一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相似性,构建出蛋白质的语义相似性矩阵;
d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的复合物即为识别出的蛋白质复合物。
一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻接矩阵和蛋白质的语义相似性矩阵;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,其中,所述网络构建模块将蛋白质相互作用数据构建为蛋白质相互作用网络,数据预处理模块执行服务器计算指令,获得该网络的邻接矩阵和语义相似性矩阵,参数定义模块定义模型参数和蛋白质复合物重叠程度参数,构建并初始化隶属度矩阵,模型构建模块获取模型参数后在服务器构建关于隶属度矩阵的目标函数,模型求解模块在得到模型构建模块构建完成的指令后开始对目标函数进行迭代求解,计算获得最优的隶属度矩阵,蛋白质复合物识别模块在得到最优的隶属度矩阵后执行蛋白质复合物识别指令,最后将识别结果通过结果展示模块进行输出展示。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
与现有技术相比,本发明具有以下有益的技术效果:
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,在算法设计过程中,考虑了网络的拓扑结构和蛋白质的基因本体语义信息来完成复合物识别任务,通过构建模糊聚类模型,将复合物识别问题转化为最优化问题来提高蛋白质复合物识别的准确性。以解决现有技术在蛋白质相互作用网络中识别复合物时的缺陷:
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,该系统功能主要由以下七个部分组成:网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块。首先,网络构建模块将蛋白质相互作用数据和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络。其次,数据预处理模块对得到的属性网络进行预处理,获得邻接矩阵和语义相似性矩阵。随后参数定义模块定义要识别的蛋白质复合物数量和隶属度矩阵,并初始化模型参数和蛋白质复合物重叠程度参数。然后,模型构建模块构建成一个关于隶属度矩阵的目标函数。接着,模型求解模块利用广义动量法和不动点迭代法对目标函数进行求解,获得最优的隶属度矩阵。最后,蛋白质复合物识别模块根据最优的隶属度矩阵和蛋白质复合物重叠程度参数,将蛋白质划分到某个或某几个蛋白质复合物中,再剔除空的蛋白质复合物,以此来实现蛋白质复合物识别目的。结果展示模块则展示了蛋白质复合物识别的结果。
附图说明
图1为本发明的逻辑结构图;
图2为本发明系统目标函数示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本发明作进一步详细说明。
实施例
本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相似性,构建出蛋白质的语义相似性矩阵;
d、定义初始化的蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的复合物即为识别出的蛋白质复合物。
一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻接矩阵和蛋白质的语义相似性矩阵;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出;
如图1所示:系统功能主要由以下七个部分组成:网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块;
适用于基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,包括以下步骤:
步骤一,预处理蛋白质相互作用数据和蛋白质基因本体语义信息,具体地,将蛋白质相互作用数据中的蛋白质抽象为蛋白质相互作用网络中节点,将蛋白质之间的相互作用抽象为网络中的边,统计蛋白质所包含的基因本体语义信息,整理获得所有节点构成的集合、所有边构成的集合、与节点相关联的所有基因本体语义信息的集合;
步骤二,根据步骤一构建的带属性的蛋白质相互作用网络,通过计算其拓扑结构信息获得网络所对应的邻接矩阵;
步骤三,根据步骤一所得所有节点构成的集合和所有基因本体语义信息的集合,应用一种集成的基因本体语义相似性度方法来计算蛋白质间的基因本体语义相似性,构建蛋白质语义相似性矩阵;
步骤四,定义并初始化的蛋白质复合物数量,初始化蛋白质复合物集合,并根据复合物初始化数量和步骤一所得的所有节点,定义蛋白质对于复合物的隶属度矩阵,并随机初始化;
步骤五,初始化模型参数和蛋白质复合物重叠程度参数,基于步骤二所得邻接矩阵、步骤三所得语义相似性矩阵和步骤四所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
步骤六,求得步骤五所得目标函数的最优解,即最佳的隶属度矩阵;
步骤七,根据步骤六所得最佳的隶属度矩阵,结合步骤五所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,获得最终所识别出的蛋白质复合物;
其中,系统所述的目标函数如图2所示,这里的,矩阵D和矩阵S分别为步骤三中所述的邻接矩阵和语义相似性矩阵,矩阵U为步骤四中所述的隶属度矩阵;矩阵Z中的元素
Figure GDA0003223217690000051
α,β,θ,/>
Figure GDA0003223217690000052
为步骤五中初始化的模型参数;该目标函数可以使得所识别的蛋白质复合物满足如下条件:
1)复合物内部的蛋白质间相互作用更加密集;
2)复合物内部的蛋白质语义密切相关;
下面对各个模块进行具体的介绍:
网络构建模块:
构建带属性的蛋白质相互作用网络,将蛋白质相互作用数据中的蛋白质抽象为网络中节点,将蛋白质之间的相互作用抽象为网络中的边,蛋白质所包含的基因本体语义信息作为网络中节点的属性;
存储网络信息,整理网络所有节点构成的集合V={vi}(1≤i≤nV)、所有边构成的集合E={eij}、与节点相关联的基因语义信息集合Λ={Λm}{1≤m≤nΛ}并进行存储,因为基因语义信息包括分子功能、细胞组分、生物过程三个类别,所以此处nΛ=3;
数据预处理模块:
获得邻接矩阵,根据网络构建模块中的得到的节点集合和属性网络构建邻接矩阵D;其中如果两个节点i和j之间存在边eij,则dij=1;否则dij=0;
获得语义相似性矩阵;
具体的语义相似性矩阵计算方法如下:
2-1假设tmp和tmq分别是基因本体语义信息集合Λm的第p和第q个基因本体术语,则可以通过集成的基因语义相似性度量方法计算,从而得到两个基因本体术语的语义相似度ISM(tmp,tmq),接下来通过下列公式计算得到蛋白质在某个语义类别(m)上的语义相似性,
Figure GDA0003223217690000053
其中,若蛋白质vi在m类别中包含第p个术语,则
Figure GDA0003223217690000054
同样,若蛋白质vj在m类别中包含第q个术语,则/>
Figure GDA0003223217690000055
2-2通过将每个类别上的语义相似性相加,得到蛋白质间的语义相似性:
Figure GDA0003223217690000061
2-3根据蛋白质间的语义相似性获得语义相似性矩阵S,其中sij=SEM(vi,vj)(i≠j);
参数定义模块:
定义要识别的蛋白质复合物数量K;
定义隶属度矩阵U,并随机初始化,其中行数为节点数量nV,列数为上一步定义的蛋白质复合物数量K,矩阵U中的元素uik表示蛋白质i对于复合物k的隶属程度;
定义模型参数α,β,θ,
Figure GDA0003223217690000062
定义蛋白质复合物重叠程度参数
Figure GDA0003223217690000063
初始化K个为空的蛋白质复合物;
模型构建模块:
根据模型参数α,β,θ,
Figure GDA0003223217690000064
数据预处理模块得到的邻接矩阵、语义相似度矩阵和参数定义模块得到的隶属度矩阵,构建如图2所示的目标函数;
模型求解模块:
引入拉格朗日乘子λ、Ω来消除目标函数中的等式约束和不等式约束,其拉格朗日公式为:
maxR(U,λ,Ω)=J(U)+λ(1-U1)+Tr(UTΩ) (1-3)
通过下列Karush-Kuhn-Tucker最优化条件:
Figure GDA0003223217690000065
得到隶属度矩阵U的更新公式:
Figure GDA0003223217690000066
Figure GDA0003223217690000067
Figure GDA0003223217690000068
Figure GDA0003223217690000069
将广义动量法的更新公式应用到图2目标函数中得到:
Figure GDA00032232176900000610
从参数定义模块中随机初始化的隶属度矩阵U开始,每次迭代按公式(1-7)、(1-8)、(1-6)、(1-5)的顺序更新,得到矩阵U'(l+1),随后将U'(l+1)代入公式(1-9)得到矩阵U(l+1);整个迭代过程将在图2中的目标函数收敛时停止,此时的U即为图2所示目标函数的最优解;
蛋白质复合物识别模块:
在本发明方法中,根据参数定义模块中的蛋白质复合物重叠程度参数
Figure GDA0003223217690000071
对每一个蛋白质,将其划分到其隶属度最大的/>
Figure GDA0003223217690000072
个蛋白质复合物中;具体地,将矩阵U表示为向量形式/>
Figure GDA0003223217690000073
其中的行向量ui表示节点i对于所有K个蛋白质复合物的隶属程度分布;
本模块通过遍历矩阵U的所有行,在每行ui中找出其元素值最大的
Figure GDA0003223217690000074
个蛋白质复合物,并将蛋白质vi划分到这些蛋白质复合物中,直到所有的蛋白质都划分完毕;随后,若存在没有包含任何蛋白质的空复合物,则将其剔除。最后,将剩余蛋白质复合物存储以供结果展示模块使用;
结果展示模块:
根据蛋白质复合物识别模块得到的结果,本模块将每个蛋白质复合物作为一行,其中蛋白质作为行中的元素,将所有复合物处理为文本文件进行输出展示。
以上显示和描述了本发明的基本原理和主要特征以及本发明的特点。本发明不受上述实验特例的限制,上述实验特例和说明书中描述的只是说明本发明的原理,在不脱离本发明原理的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (2)

1.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,其特征在于按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关的基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法,计算蛋白质间的基因本体语义相似性,构建蛋白质的语义相似性矩阵;具体包括:
对于基因本体语义信息集合Λm的第p个和第q个基因本体术语tmp和tmq,通过集成的基因语义相似性度量方法计算,得到两个基因本体术语的语义相似度ISM(tmp,tmq),蛋白质vi在m类别中包含第p个术语,蛋白质vj在m类别中包含第q个术语,计算得到蛋白质vi和vj在某个语义类别m上的语义相似性
Figure FDA0004157491120000011
通过将每个语义类别上的语义相似性相加,得到蛋白质vi和vj间的语义相似性
Figure FDA0004157491120000012
d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、基于广义动量法,对步骤e所得目标函数进行求解,直至目标函数收敛,此时获得目标函数的解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的复合物即为识别出的蛋白质复合物;
根据蛋白质间的语义相似性获得语义相似性矩阵S。
2.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,其特征在于该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻接矩阵和蛋白质的语义相似性矩阵;所述数据预处理模块的处理过程具体包括:
对于基因本体语义信息集合Λm的第p个和第q个基因本体术语tmp和tmq,通过集成的基因语义相似性度量方法计算,得到两个基因本体术语的语义相似度ISM(tmp,tmq),蛋白质vi在m类别中包含第p个术语,蛋白质vj在m类别中包含第q个术语,计算得到蛋白质vi和vj在某个语义类别m上的语义相似性
Figure FDA0004157491120000021
通过将每个语义类别上的语义相似性相加,得到蛋白质vi和vj间的语义相似性
Figure FDA0004157491120000022
根据蛋白质间的语义相似性获得语义相似性矩阵S;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:基于广义动量法,对模型构建模块所得的目标函数进行求解,直至目标函数收敛,此时获得目标函数的解,即最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。
CN202110752082.5A 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 Active CN113470738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752082.5A CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752082.5A CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Publications (2)

Publication Number Publication Date
CN113470738A CN113470738A (zh) 2021-10-01
CN113470738B true CN113470738B (zh) 2023-07-14

Family

ID=77877714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752082.5A Active CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Country Status (1)

Country Link
CN (1) CN113470738B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514381A (zh) * 2013-07-22 2014-01-15 湖南大学 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN104992078A (zh) * 2015-06-17 2015-10-21 西安理工大学 一种基于语义密度的蛋白质网络复合物识别方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN111128301A (zh) * 2019-12-06 2020-05-08 北部湾大学 一种基于模糊聚类的重叠蛋白质复合物识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1677113A1 (en) * 2004-12-29 2006-07-05 Max-Delbrück-Centrum für Molekulare Medizin (MDC) Method for the identification of protein-protein interactions in disease related protein networks
US20130253894A1 (en) * 2012-03-07 2013-09-26 The Trustees Of Columbia University In The City Of New York Systems And Methods For Predicting Protein-Protein Interactions
CN106355044A (zh) * 2016-08-15 2017-01-25 上海电机学院 基于随机游走模型的蛋白质复合物识别方法
CN108681659B (zh) * 2018-04-02 2022-04-05 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN111128292B (zh) * 2019-12-25 2023-05-05 湖南师范大学 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
CN111816255B (zh) * 2020-07-09 2024-03-08 江南大学 融合多视角和最优多标签链式学习的rna结合蛋白识别

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514381A (zh) * 2013-07-22 2014-01-15 湖南大学 整合拓扑属性和功能的蛋白质生物网络模体识别方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN104992078A (zh) * 2015-06-17 2015-10-21 西安理工大学 一种基于语义密度的蛋白质网络复合物识别方法
CN111128301A (zh) * 2019-12-06 2020-05-08 北部湾大学 一种基于模糊聚类的重叠蛋白质复合物识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
随机游走模型识别蛋白质网络复合物算法;林志杰 等;《上海电机学院学报》;第17卷(第6期);347-351 *

Also Published As

Publication number Publication date
CN113470738A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN110532417B (zh) 基于深度哈希的图像检索方法、装置及终端设备
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
Shi et al. Protein complex detection with semi-supervised learning in protein interaction networks
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Akram et al. Bipolar neutrosophic hypergraphs with applications
Sarwar et al. A survey of big data analytics in healthcare
CN113343100B (zh) 一种基于知识图谱的智慧城市资源推荐方法和系统
CN111931023B (zh) 一种基于网络嵌入的社团结构识别方法及装置
Kolluri et al. Text classification using machine learning and deep learning models
CN113470738B (zh) 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统
Liu et al. A supervised community detection method for automatic machining region construction in structural parts NC machining
Chithambarathanu et al. Data clustering using genomic analysis in graph model
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
Xu et al. Dilated convolution capsule network for apple leaf disease identification
ElAlami Unsupervised image retrieval framework based on rule base system
CN114242168A (zh) 一种识别生物必需蛋白质方法
CN116702784A (zh) 实体链接方法、装置、计算机设备和存储介质
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant