CN113470738A - 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 - Google Patents

基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 Download PDF

Info

Publication number
CN113470738A
CN113470738A CN202110752082.5A CN202110752082A CN113470738A CN 113470738 A CN113470738 A CN 113470738A CN 202110752082 A CN202110752082 A CN 202110752082A CN 113470738 A CN113470738 A CN 113470738A
Authority
CN
China
Prior art keywords
protein
module
matrix
network
semantic similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110752082.5A
Other languages
English (en)
Other versions
CN113470738B (zh
Inventor
胡伦
潘翔宇
周喜
蒋同海
苏小芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110752082.5A priority Critical patent/CN113470738B/zh
Publication of CN113470738A publication Critical patent/CN113470738A/zh
Application granted granted Critical
Publication of CN113470738B publication Critical patent/CN113470738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。

Description

基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物 识别方法和系统
技术领域
本发明涉及计算机数据处理技术领域和计算生物学领域,特别涉及基于模糊聚类和基 因本体语义相似性的可重叠蛋白质复合物识别方法和系统。
背景技术
目前,现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来 完成复合物识别工作,即根据网络中蛋白质之间是否存在相互作用,来识别出具有某些特 定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、 k-cliques结构和核心附着结构。然而,仅基于特定拓扑结构的蛋白质复合物识别方法忽 视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息,这些信息从三个 方面描述了蛋白质的功能,即分子功能、细胞组分和生物过程。对基因本体信息的忽视会 使得更具有生物学意义的蛋白质复合物无法被发现。此外,一些已知的蛋白质复合物是彼 此重叠的,如果不能考虑蛋白质复合物间的重叠性,则所识别出的蛋白质复合物在准确性 方面可能会有所不足。
尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法,但它们均未 考虑基因本体语义信息中所固有的完整有向无环图关系,因此所识别的蛋白质复合物在准 确性上表现欠佳。
发明内容
本发明的目的在于,针对现有技术中的缺陷和不足,提供一种基于模糊聚类和基因本 体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模 块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示 模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本 体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识 别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的 蛋白质复合物识别问题。
本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法, 按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互 作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应 节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的 集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相 似性,构建出蛋白质的语义相似性矩阵;
d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复 合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、 步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数, 将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的 复合物即为识别出的蛋白质复合物。
一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是 由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白 质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一 个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻 接矩阵和蛋白质的语义相似性矩阵;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化 蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和 参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块 初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方 法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求 解模块、蛋白质复合物识别模块以及结果展示模块,其中,所述网络构建模块将蛋白质相 互作用数据构建为蛋白质相互作用网络,数据预处理模块执行服务器计算指令,获得该网 络的邻接矩阵和语义相似性矩阵,参数定义模块定义模型参数和蛋白质复合物重叠程度参 数,构建并初始化隶属度矩阵,模型构建模块获取模型参数后在服务器构建关于隶属度矩 阵的目标函数,模型求解模块在得到模型构建模块构建完成的指令后开始对目标函数进行 迭代求解,计算获得最优的隶属度矩阵,蛋白质复合物识别模块在得到最优的隶属度矩阵 后执行蛋白质复合物识别指令,最后将识别结果通过结果展示模块进行输出展示。本发明 直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高, 能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
与现有技术相比,本发明具有以下有益的技术效果:
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别 方法和系统,在算法设计过程中,考虑了网络的拓扑结构和蛋白质的基因本体语义信息来 完成复合物识别任务,通过构建模糊聚类模型,将复合物识别问题转化为最优化问题来提 高蛋白质复合物识别的准确性。以解决现有技术在蛋白质相互作用网络中识别复合物时的 缺陷:
本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别 方法和系统,该系统功能主要由以下七个部分组成:网络构建模块、数据预处理模块、参 数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块。首先,网络构建模块将蛋白质相互作用数据和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络。其次,数据预处理模块对得到的属性网络进行预处理,获得邻接矩阵和语义相似性矩阵。随后参数定义模块定义要识别的蛋白质复合物数量和隶属度矩阵,并初始化模型参数和蛋白质复合物重叠程度参数。然后,模型构建模块构建成一个关于隶属度矩阵的目标函数。接着,模型求解模块利用广义动量法和不动点迭代法对目标函数进行求解,获得最优的隶属度矩阵。最后,蛋白质复合物识别模块根据最优的隶属度矩阵和蛋白质复合物重叠程度参数,将蛋白质划分到某个或某几个蛋白质复合物中,再剔除空的蛋白质复合物,以此来实现蛋白质复合物识别目的。结果展示模块则展示了蛋白质复合物识别的结果。
附图说明
图1为本发明的逻辑结构图;
图2为本发明系统目标函数示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本 发明作进一步详细说明。
实施例
本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法, 按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互 作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应 节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的 集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相 似性,构建出蛋白质的语义相似性矩阵;
d、定义初始化的蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白 质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、 步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数, 将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的 复合物即为识别出的蛋白质复合物。
一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是 由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白 质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一 个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻 接矩阵和蛋白质的语义相似性矩阵;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化 蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和 参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块 初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出;
如图1所示:系统功能主要由以下七个部分组成:网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块;
适用于基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,包括以 下步骤:
步骤一,预处理蛋白质相互作用数据和蛋白质基因本体语义信息,具体地,将蛋白质 相互作用数据中的蛋白质抽象为蛋白质相互作用网络中节点,将蛋白质之间的相互作用抽 象为网络中的边,统计蛋白质所包含的基因本体语义信息,整理获得所有节点构成的集合、 所有边构成的集合、与节点相关联的所有基因本体语义信息的集合;
步骤二,根据步骤一构建的带属性的蛋白质相互作用网络,通过计算其拓扑结构信息 获得网络所对应的邻接矩阵D;
步骤三,根据步骤一所得所有节点构成的集合和所有基因本体语义信息的集合,应用 一种集成的基因本体语义相似性度方法来计算蛋白质间的基因本体语义相似性,构建蛋白 质语义相似性矩阵S;
步骤四,定义并初始化的蛋白质复合物数量,初始化蛋白质复合物集合,并根据复合 物初始化数量和步骤一所得的所有节点,定义蛋白质对于复合物的隶属度矩阵U,并随机 初始化;
步骤五,初始化模型参数和蛋白质复合物重叠程度参数,基于步骤二所得邻接矩阵D、 步骤三所得语义相似性矩阵S和步骤四所得隶属度矩阵U,构建关于隶属度矩阵的目标函 数;
步骤六,求得步骤五所得目标函数的最优解,即最佳的隶属度矩阵U;
步骤七,根据步骤六所得最佳的隶属度矩阵,结合步骤五所得蛋白质复合物重叠程度 参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物, 获得最终所识别出的蛋白质复合物;
其中,系统所述的目标函数如图2所示,这里的,矩阵D和矩阵S分别为步骤三中所述的邻接矩阵和语义相似性矩阵,矩阵U为步骤四中所述的隶属度矩阵;矩阵Z中的元素
Figure RE-GDA0003223217690000051
α,β,θ,
Figure RE-GDA0003223217690000052
为步骤五中初始化的模型参数;该目标函数可以使得所识别的蛋白质复合物满足如下条件:
1)复合物内部的蛋白质间相互作用更加密集;
2)复合物内部的蛋白质语义密切相关;
下面对各个模块进行具体的介绍:
网络构建模块:
构建带属性的蛋白质相互作用网络,将蛋白质相互作用数据中的蛋白质抽象为网络中 节点,将蛋白质之间的相互作用抽象为网络中的边,蛋白质所包含的基因本体语义信息作 为网络中节点的属性;
存储网络信息,整理网络所有节点构成的集合V={vi}(1≤i≤nV)、所有边构成的集合 E={eij}、与节点相关联的基因语义信息集合Λ={Λm}{1≤m≤nΛ}并进行存储,因为基因语 义信息包括分子功能、细胞组分、生物过程三个类别,所以此处nΛ=3;
数据预处理模块:
获得邻接矩阵D,根据网络构建模块中的得到的节点集合和属性网络构建邻接矩阵D; 其中如果两个节点i和j之间存在边eij,则dij=1;否则dij=0;
获得语义相似性矩阵;
具体的语义相似性矩阵S计算方法如下:
2-1假设tmp和tmq分别是基因本体语义信息集合Λm的第p和第q个基因本体术语,则可以通过集成的基因语义相似性度量方法计算,从而得到两个基因本体术语的语义相似度ISM(tmp,tmq),接下来通过下列公式计算得到蛋白质在某个语义类别(m)上的语义相似性,
Figure BDA0003146578060000052
其中,若蛋白质vi在m类别中包含第p个术语,则
Figure BDA0003146578060000053
同样,若蛋白质vj在m类 别中包含第q个术语,则
Figure BDA0003146578060000054
2-2通过将每个类别上的语义相似性相加,得到蛋白质间的语义相似性:
Figure BDA0003146578060000061
2-3根据蛋白质间的语义相似性获得语义相似性矩阵S,其中sij=SEM(vi,vj)(i≠j);
参数定义模块:
定义要识别的蛋白质复合物数量K;
定义隶属度矩阵U,并随机初始化,其中行数为节点数量nV,列数为所定义的蛋白质复合物数量K,隶属度矩阵U中的元素uik表示蛋白质i对于复合物k的隶属程度;
定义模型参数
Figure BDA0003146578060000062
定义蛋白质复合物重叠程度参数
Figure BDA0003146578060000063
初始化K个为空的蛋白质复合物;
模型构建模块:
根据模型参数
Figure BDA0003146578060000064
数据预处理模块得到的邻接矩阵D、语义相似度矩阵S和参 数定义模块得到的隶属度矩阵U,构建如图2所示的目标函数;
模型求解模块:
引入拉格朗日乘子λ、Ω来消除目标函数中的等式约束和不等式约束,其拉格朗日公 式为:
Figure BDA00031465780600000611
通过下列Karush-Kuhn-Tucker最优化条件:
Figure BDA0003146578060000065
得到隶属度矩阵U的更新公式:
Figure BDA0003146578060000066
Figure BDA0003146578060000067
Figure BDA0003146578060000068
Figure BDA0003146578060000069
将广义动量法的更新公式应用到图2目标函数中得到:
Figure BDA00031465780600000610
从参数定义模块中随机初始化的隶属度矩阵U开始,每次迭代按公式(1-7)、(1-8)、(1-6)、(1-5)的顺序更新,得到隶属度矩阵U'(l+1),随后将隶属度矩阵U'(l+1)代入公式(1-9) 得到隶属度矩阵U(l+1);整个迭代过程将在图2中的目标函数收敛时停止,此时的隶属度 矩阵U即为图2所示目标函数的最优解;
蛋白质复合物识别模块:
在本发明方法中,根据参数定义模块中的蛋白质复合物重叠程度参数
Figure BDA0003146578060000071
对每一个蛋 白质,将其划分到其隶属度最大的
Figure BDA0003146578060000072
个蛋白质复合物中;具体地,将隶属度矩阵U表示为 向量形式
Figure BDA0003146578060000073
其中的行向量ui表示节点i对于所有K个蛋白质复合物的隶 属程度分布;
本模块通过遍历隶属度矩阵U的所有行,在每行ui中找出其元素值最大的
Figure BDA0003146578060000074
个蛋白质 复合物,并将蛋白质vi划分到这些蛋白质复合物中,直到所有的蛋白质都划分完毕;随后, 若存在没有包含任何蛋白质的空复合物,则将其剔除。最后,将剩余蛋白质复合物存储以 供结果展示模块使用;
结果展示模块:
根据蛋白质复合物识别模块得到的结果,本模块将每个蛋白质复合物作为一行,其中 蛋白质作为行中的元素,将所有复合物处理为文本文件进行输出展示。
以上显示和描述了本发明的基本原理和主要特征以及本发明的特点。本发明不受上述 实验特例的限制,上述实验特例和说明书中描述的只是说明本发明的原理,在不脱离本发 明原理的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发 明范围内。

Claims (2)

1.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,其特征在于按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关的基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法,计算蛋白质间的基因本体语义相似性,构建蛋白质的语义相似性矩阵;
d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的复合物即为识别出的蛋白质复合物。
2.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,其特征在于该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成,其中:
网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络;
数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻接矩阵和蛋白质的语义相似性矩阵;
参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。
CN202110752082.5A 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 Active CN113470738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752082.5A CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752082.5A CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Publications (2)

Publication Number Publication Date
CN113470738A true CN113470738A (zh) 2021-10-01
CN113470738B CN113470738B (zh) 2023-07-14

Family

ID=77877714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752082.5A Active CN113470738B (zh) 2021-07-03 2021-07-03 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Country Status (1)

Country Link
CN (1) CN113470738B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1677113A1 (en) * 2004-12-29 2006-07-05 Max-Delbrück-Centrum für Molekulare Medizin (MDC) Method for the identification of protein-protein interactions in disease related protein networks
US20130253894A1 (en) * 2012-03-07 2013-09-26 The Trustees Of Columbia University In The City Of New York Systems And Methods For Predicting Protein-Protein Interactions
CN103514381A (zh) * 2013-07-22 2014-01-15 湖南大学 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN104992078A (zh) * 2015-06-17 2015-10-21 西安理工大学 一种基于语义密度的蛋白质网络复合物识别方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN106355044A (zh) * 2016-08-15 2017-01-25 上海电机学院 基于随机游走模型的蛋白质复合物识别方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN111128292A (zh) * 2019-12-25 2020-05-08 湖南师范大学 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
CN111128301A (zh) * 2019-12-06 2020-05-08 北部湾大学 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN111816255A (zh) * 2020-07-09 2020-10-23 江南大学 融合多视角和最优多标签链式学习的rna结合蛋白识别

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1677113A1 (en) * 2004-12-29 2006-07-05 Max-Delbrück-Centrum für Molekulare Medizin (MDC) Method for the identification of protein-protein interactions in disease related protein networks
US20130253894A1 (en) * 2012-03-07 2013-09-26 The Trustees Of Columbia University In The City Of New York Systems And Methods For Predicting Protein-Protein Interactions
CN103514381A (zh) * 2013-07-22 2014-01-15 湖南大学 整合拓扑属性和功能的蛋白质生物网络模体识别方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN104992078A (zh) * 2015-06-17 2015-10-21 西安理工大学 一种基于语义密度的蛋白质网络复合物识别方法
CN106355044A (zh) * 2016-08-15 2017-01-25 上海电机学院 基于随机游走模型的蛋白质复合物识别方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN111128301A (zh) * 2019-12-06 2020-05-08 北部湾大学 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN111128292A (zh) * 2019-12-25 2020-05-08 湖南师范大学 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
CN111816255A (zh) * 2020-07-09 2020-10-23 江南大学 融合多视角和最优多标签链式学习的rna结合蛋白识别

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HAIXUAN YANG 等: "Improving GO semantic similarity measures by exploring theontology beneath the terms and modelling uncertainty", 《BIOINFORMATICS》 *
HAIXUAN YANG 等: "Improving GO semantic similarity measures by exploring theontology beneath the terms and modelling uncertainty", 《BIOINFORMATICS》, vol. 28, no. 10, 19 April 2012 (2012-04-19), pages 1383 - 1389 *
LUN HU等: "Identifying Overlapping Protein Complexes in Yeast Protein Interaction Network via Fuzzy Clustering", 《FUZZ-IEEE》 *
LUN HU等: "Identifying Overlapping Protein Complexes in Yeast Protein Interaction Network via Fuzzy Clustering", 《FUZZ-IEEE》, 24 August 2017 (2017-08-24), pages 1 - 6 *
林志杰 等: "随机游走模型识别蛋白质网络复合物算法", 《上海电机学院学报》, vol. 17, no. 6, pages 347 - 351 *
王佩恒: "面向蛋白质相互作用网络的蛋白质复合物识别算法研究与实现", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
王佩恒: "面向蛋白质相互作用网络的蛋白质复合物识别算法研究与实现", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 2020, 15 July 2020 (2020-07-15), pages 002 - 68 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
CN113470738B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Patel Hands-on unsupervised learning using Python: how to build applied machine learning solutions from unlabeled data
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
Ran et al. Comprehensive survey on hierarchical clustering algorithms and the recent developments
Salakhutdinov et al. Learning with hierarchical-deep models
CN109522942A (zh) 一种图像分类方法、装置、终端设备和存储介质
Shi et al. Protein complex detection with semi-supervised learning in protein interaction networks
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Sarwar et al. A survey of big data analytics in healthcare
Wang et al. Ppisb: a novel network-based algorithm of predicting protein-protein interactions with mixed membership stochastic blockmodel
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Kolluri et al. Text classification using machine learning and deep learning models
CN113470738B (zh) 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统
Chithambarathanu et al. Data clustering using genomic analysis in graph model
CN114242168A (zh) 一种识别生物必需蛋白质方法
CN114358202A (zh) 基于药物分子图像分类的信息推送方法及装置
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
Tiwari et al. Learning semantic image attributes using image recognition and knowledge graph embeddings
CN112948552B (zh) 一种事理图谱在线扩展方法及装置
Morvan et al. Graph sketching-based massive data clustering
Carletti Exact and Inexact Methods for Graph Similarity in Structural Pattern Recognition PhD thesis of Vincenzo Carletti.
Shi et al. Semi-supervised learning protein complexes from protein interaction networks
Burduk et al. Construction of sequential classifier using confusion matrix
Oucheikh et al. Data Clustering using Two-Stage Eagle Strategy Based on Slime Mould Algorithm
Romero et al. Feature extraction using spectral clustering for gene function prediction using hierarchical multi-label classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant