CN113990397A - 基于有监督学习检测蛋白质复合物的方法及装置 - Google Patents

基于有监督学习检测蛋白质复合物的方法及装置 Download PDF

Info

Publication number
CN113990397A
CN113990397A CN202111558297.XA CN202111558297A CN113990397A CN 113990397 A CN113990397 A CN 113990397A CN 202111558297 A CN202111558297 A CN 202111558297A CN 113990397 A CN113990397 A CN 113990397A
Authority
CN
China
Prior art keywords
protein
protein complex
complexes
complex
protein complexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111558297.XA
Other languages
English (en)
Other versions
CN113990397B (zh
Inventor
王荣全
赵贺
马惠敏
储华珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202111558297.XA priority Critical patent/CN113990397B/zh
Publication of CN113990397A publication Critical patent/CN113990397A/zh
Application granted granted Critical
Publication of CN113990397B publication Critical patent/CN113990397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于有监督学习检测蛋白质复合物的方法及装置,涉及蛋白质复合物检测技术领域。包括:构建具有权重的蛋白质相互作用网络;在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核;根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型;基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物;根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。本发明能够进一步提高蛋白质复合物检测方法的精度;提取有效的拓扑特征描述蛋白质复合物;训练得到具有较强鲁棒性的基于有监督学习的蛋白质复合物模型。

Description

基于有监督学习检测蛋白质复合物的方法及装置
技术领域
本发明涉及蛋白质复合物检测技术领域,特别是指一种基于有监督学习检测蛋白质复合物的方法及装置。
背景技术
基于蛋白质相互作用网络检测蛋白质复合物的方法主要分为三类:第一类方法基于种子节点的筛选和扩张搜寻蛋白质相互作用网络中的稠密子图来检测蛋白质复合物,但是其时间复杂度很高而且准确率很低。第二类方法基于核-附属结构检测蛋白质复合物,如Wu等人COACH算法。该算法分为两步,首先基于稠密度等概念挖掘蛋白质复合物的核,然后将挖掘到的蛋白质复合物的核与附属蛋白质结合,形成最后检测的蛋白质复合物。第三类方法是基于模型的聚类算法,如ClusterONE算法,它为蛋白质相互作用网络定义一个内聚性模型,以此预测重叠的蛋白质复合物。为了过滤蛋白质相互作用网络中假阳性和假阴性相互作用边,科学家们提出了许多方法使挖掘到的蛋白质复合物更加准确。有的方法利用拓扑结构属性为相互作用边打分,以此衡量这些边的可靠性;还有一些方法融合若干生物信息,比如GO(Gene Ontology,基因本体)注释信息,基因表达数据,亚细胞定位数据等等,来提高蛋白质复合物预测的精确度。上述基于无监督学习的检测方法存在的一些共性的不足如:(1)检测方法的精度严重依赖于蛋白质相互作用网络的可靠性;(2)只能检测单一拓扑结构的蛋白质复合物;(3)不能有效地学习已知蛋白质复合物的拓扑特征。
近些年,基于有监督学习的蛋白质复合物检测方法被提出,它们主要通过训练分类或者回归模型对蛋白质复合物进行挖掘,目前已使用的模型有贝叶斯模型、线性回归模型、随机森林模型、神经网络模型。上述基于有监督学习的检测方法还有如下亟待解决问题:(1)如何进一步提高检测方法的精度;(2)如何进一步提取有效的拓扑特征描述蛋白质复合物;(3)如何训练得到贴近真实蛋白质复合物的拓扑结构的模型。目前迫切需要一种新的检测方法同时满足以上所有要求。
发明内容
本发明针对现有技术如何提高蛋白质复合物检测方法的精度;进一步提取有效的拓扑特征描述蛋白质复合物;训练得到具有较强鲁棒性的基于有监督学习的蛋白质复合物模型,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于有监督学习检测蛋白质复合物的方法,其由电子设备实现,其包括:
S1、基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,生物信息包括基因表达数据、基因本体、亚细胞定位。
S2、在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
S3、根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
S4、基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物。
S5、根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
可选地,S1中的基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络包括:
S11、计算两个相互作用的蛋白质的共表达程度。
S12、计算两个相互作用的蛋白质的功能相似性。
S13、计算两个相互作用的蛋白质的亚细胞定位相似性。
S14、计算两个相互作用的蛋白质的矢量表示相似性。
S15、根据S11-S14的计算结果,得到每条蛋白质相互作用边的权值,进而得到具有权重的蛋白质相互作用网络。
可选地,S2中在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核包括:
S21、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权。
S22、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所述所有边依序插入到种子边队列中。
S23、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S23直到所述种子边队列为空,得到所有蛋白质复合物的核。
可选地,S3中的根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型包括:
S31、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择。
S32、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
可选地,S31中的根据已知蛋白质复合物的大小分布,并以此分布为基准,生成假的蛋白质复合物集合包括:
S311、将标准蛋白质复合物映射到所述具有权重的蛋白质相互作用网络。
S312、在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2,映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
可选地,S4中的基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物包括:
S41、将所有的所述蛋白质复合物的核记为簇
Figure 788411DEST_PATH_IMAGE001
,确定其邻居集合
Figure 630597DEST_PATH_IMAGE002
和边界节点集合
Figure 713828DEST_PATH_IMAGE003
;其中,
Figure 195625DEST_PATH_IMAGE004
为簇
Figure 219076DEST_PATH_IMAGE005
中蛋白质的集合;
Figure 102718DEST_PATH_IMAGE006
为簇
Figure 248529DEST_PATH_IMAGE005
中蛋白质对的集合;
Figure 325944DEST_PATH_IMAGE007
为簇
Figure 277719DEST_PATH_IMAGE005
中蛋白质对的权重的集合;其中,所述蛋白质对是两个相互作用的蛋白质。
S42、迭代地删除所述边界节点集合
Figure 953551DEST_PATH_IMAGE008
中的蛋白质,使所述蛋白质复合物检测回归模型的分数增加,直到所述蛋白质复合物检测回归模型的分数不再增加或所述边界节点集合
Figure 207946DEST_PATH_IMAGE008
中的节点数量小于4,则终止该迭代过程。
S43、迭代地从所述邻居集合
Figure 664335DEST_PATH_IMAGE009
中选出一个蛋白质添入所述
Figure 295168DEST_PATH_IMAGE005
中,使所述蛋白质复合物检测回归模型的分数增加,并将其从所述邻居集合
Figure 81900DEST_PATH_IMAGE009
中删除,直到所述邻居集合
Figure 897409DEST_PATH_IMAGE009
为空或蛋白质复合物检测回归模型的分数不再增加,则终止该迭代过程。
S44、重复执行S42和S43,直到所述不再发生变化,输出结果。
可选地,S5中的根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物包括:
S51、计算所述蛋白质复合物的蛋白质复合物检测模型得分
Figure 716461DEST_PATH_IMAGE010
,将低于平均分的蛋白质复合物舍弃。
S52、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 275618DEST_PATH_IMAGE011
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
可选地,
Figure 863725DEST_PATH_IMAGE012
另一方面,本发明提供了一种基于有监督学习检测蛋白质复合物的装置,其应用于实现检测蛋白质相互作用网络中蛋白质复合物的方法,其包括:
网络构建模块,用于基于图嵌入方法结合拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,所述生物信息包括基因表达数据、基因本体、亚细胞定位。
检测模块,用于在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
模型构建模块,用于根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
过程模块,基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物。
输出模块,根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
可选地,网络构建模块,进一步用于:
S11、计算两个相互作用的蛋白质的共表达程度。
S12、计算两个相互作用的蛋白质的功能相似性。
S13、计算两个相互作用的蛋白质的亚细胞定位相似性。
S14、计算两个相互作用的蛋白质的矢量表示相似性。
S15、根据S11-S14的计算结果,得到每条蛋白质相互作用边的权值,进而得到具有权重的蛋白质相互作用网络。
可选地,检测模块,进一步用于:
S21、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权。
S22、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所述所有边依序插入到种子边队列中。
S23、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S23直到所述种子边队列为空,得到所有蛋白质复合物的核。
可选地,模型构建模块,进一步用于:
S31、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择。
S32、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
可选地,模型构建模块,进一步用于:
S311、将标准蛋白质复合物映射到所述具有权重的蛋白质相互作用网络。
S312、在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2,映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
可选地,过程模块,进一步用于:
S41、将所有的所述蛋白质复合物的核记为簇
Figure 584556DEST_PATH_IMAGE001
,确定其邻居集合
Figure 625325DEST_PATH_IMAGE002
和边界节点集合
Figure 722594DEST_PATH_IMAGE003
;其中,
Figure 726060DEST_PATH_IMAGE004
为簇
Figure 493158DEST_PATH_IMAGE005
中蛋白质的集合;
Figure 145857DEST_PATH_IMAGE006
为簇
Figure 922183DEST_PATH_IMAGE005
中蛋白质对的集合;
Figure 343937DEST_PATH_IMAGE007
为簇
Figure 547516DEST_PATH_IMAGE005
中蛋白质对的权重的集合;其中,所述蛋白质对是两个相互作用的蛋白质。
S42、迭代地删除所述边界节点集合
Figure 858150DEST_PATH_IMAGE003
中的蛋白质,使所述蛋白质复合物检测回归模型的分数增加,直到所述蛋白质复合物检测回归模型的分数不再增加或所述边界节点集合
Figure 562800DEST_PATH_IMAGE003
中的节点数量小于4,则终止该迭代过程。
S43、迭代地从所述邻居集合
Figure 980006DEST_PATH_IMAGE002
中选出一个蛋白质添入所述
Figure 213542DEST_PATH_IMAGE005
中,使所述蛋白质复合物检测回归模型的分数增加,并将其从所述邻居集合
Figure 716198DEST_PATH_IMAGE002
中删除,直到所述邻居集合
Figure 958961DEST_PATH_IMAGE002
为空或蛋白质复合物检测回归模型的分数不再增加,则终止该迭代过程。
S44、重复执行S42和S43,直到所述
Figure 27411DEST_PATH_IMAGE005
不再发生变化,输出结果。
可选地,输出模块,进一步用于:
S51、计算所述蛋白质复合物的蛋白质复合物检测模型得分
Figure 71328DEST_PATH_IMAGE010
,将低于平均分的蛋白质复合物舍弃。
S52、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 185915DEST_PATH_IMAGE011
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
可选地,
Figure 842155DEST_PATH_IMAGE012
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于有监督学习检测蛋白质复合物的方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于有监督学习检测蛋白质复合物的的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,设计开发了一种用于检测蛋白质相互作用网络中蛋白质复合物的有监督学习方法及装置,通过本发明可以检测出精确度较高并且生物学意义显著的蛋白质复合物,同时训练得到的蛋白质复合物模型能学习到符合真实蛋白质复合物的拓扑结构特征,进而检测蛋白质复合物的能力较高,对蛋白质相互作用网络中的噪声具有较强适应性;进一步提取有效的拓扑特征描述蛋白质复合物,训练得到贴近真实蛋白质复合物拓扑结构的模型。
本发明针对当前方法精度偏低,容忍蛋白质相互作用网络中的噪声能力较弱,检测方法的精度严重依赖于蛋白质相互作用网络的可靠性的问题,提出了基于图嵌入方法结合拓扑属性和生物信息包括基因表达数据、基因本体、亚细胞定位构建具有权重的蛋白质相互作用网络,从而提高蛋白质复合物检测方法在蛋白质相互作用网络中检测蛋白质复合物的精度,增强容忍蛋白质相互作用网络的噪声能力;针对当前检测方法存在只能检测单一拓扑结构的蛋白质复合物的问题,提出根据已知蛋白质复合物的大小分布,生成假的蛋白质复合物,本发明设计的若干新拓扑结构特征并对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;针对当前检测方法不能有效地学习已知蛋白质复合物的拓扑特征,提出集成学习Bagging回归模型并设计模型训练方法对该模型进行训练,最后得到蛋白质复合物检测模型。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于有监督学习检测蛋白质复合物的方法流程示意图;
图2是本发明一种基于有监督学习检测蛋白质复合物的方法流程示意图;
图3是本发明检测蛋白质相互作用网络中蛋白质复合物的装置框图;
图4是本发明一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种基于有监督学习检测蛋白质复合物的方法,该方法由电子设备实现。如图1所示的基于有监督学习检测蛋白质复合物的方法流程图,该方法的处理流程可以包括如下的步骤:
S11、基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,生物信息包括基因表达数据、基因本体、亚细胞定位。
S12、在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
S13、根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
S14、基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物。
S15、根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
可选地,S11中的基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络包括:
S111、计算两个相互作用的蛋白质的共表达程度。
S112、计算两个相互作用的蛋白质的功能相似性。
S113、计算两个相互作用的蛋白质的亚细胞定位相似性。
S114、计算两个相互作用的蛋白质的矢量表示相似性。
S115、根据S111-S114的计算结果,得到每条蛋白质相互作用边的权值,进而得到具有权重的蛋白质相互作用网络。
可选地,S12中的在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核包括:
S121、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权。
S122、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所述所有边依序插入到种子边队列中。
S123、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S123直到所述种子边队列为空,得到所有蛋白质复合物的核。
可选地,S13中的根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型包括:
S131、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择。
S132、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
可选地,S131中的根据已知蛋白质复合物的大小分布,并以此分布为基准,生成假的蛋白质复合物集合包括:
S1311、将标准蛋白质复合物映射到所述具有权重的蛋白质相互作用网络。
S1312、在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2。映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
可选地,S14中的基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物包括:
S141、将所有的所述蛋白质复合物的核记为簇
Figure 358587DEST_PATH_IMAGE013
,确定其邻居集合
Figure 809291DEST_PATH_IMAGE002
和边界节点集合
Figure 411174DEST_PATH_IMAGE003
;其中,
Figure 667843DEST_PATH_IMAGE004
为簇
Figure 412682DEST_PATH_IMAGE005
中蛋白质的集合;
Figure 424501DEST_PATH_IMAGE006
为簇
Figure 857887DEST_PATH_IMAGE005
中蛋白质对的集合;
Figure 246143DEST_PATH_IMAGE007
为簇
Figure 346955DEST_PATH_IMAGE005
中蛋白质对的权重的集合;其中,所述蛋白质对是两个相互作用的蛋白质。
S142、迭代地删除所述边界节点集合
Figure 201778DEST_PATH_IMAGE003
中的蛋白质,使所述蛋白质复合物检测回归模型的分数增加,直到所述蛋白质复合物检测回归模型的分数不再增加或所述边界节点集合
Figure 778253DEST_PATH_IMAGE003
中的节点数量小于4,则终止该迭代过程。
S143、迭代地从所述邻居集合
Figure 78522DEST_PATH_IMAGE002
中选出一个蛋白质添入所述
Figure 158473DEST_PATH_IMAGE005
中,使所述蛋白质复合物检测回归模型的分数增加,并将其从所述邻居集合
Figure 653040DEST_PATH_IMAGE002
中删除,直到所述邻居集合
Figure 185652DEST_PATH_IMAGE002
为空或蛋白质复合物检测回归模型的分数不再增加,则终止该迭代过程。
S144、重复执行S142和S143,直到
Figure 791077DEST_PATH_IMAGE005
不再发生变化,输出结果。
可选地,S15中的根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物包括:
S151、计算所述蛋白质复合物的蛋白质复合物检测模型得分
Figure 725535DEST_PATH_IMAGE010
,将低于平均分的蛋白质复合物舍弃。
S152、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 391003DEST_PATH_IMAGE011
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
可选地,
Figure 847130DEST_PATH_IMAGE012
本发明实施例中,设计开发了一种基于有监督学习检测蛋白质复合物的方法及装置,通过本发明可以检测出精确度较高并且生物学意义显著的蛋白质复合物,同时训练得到的蛋白质复合物模型能学习到符合真实蛋白质复合物的拓扑结构特征,进而检测蛋白质复合物的能力较高,对蛋白质相互作用网络中的噪声具有较强适应性;进一步提取有效的拓扑特征描述蛋白质复合物,训练得到贴近真实蛋白质复合物拓扑结构的模型。
本发明针对当前方法精度偏低,容忍蛋白质相互作用网络中的噪声能力较弱,检测方法的精度严重依赖于蛋白质相互作用网络的可靠性的问题,提出了基于图嵌入方法结合拓扑属性和生物信息包括基因表达数据、基因本体、亚细胞定位构建具有权重的蛋白质相互作用网络,从而提高蛋白质复合物检测方法在蛋白质相互作用网络中检测蛋白质复合物的精度,增强容忍蛋白质相互作用网络的噪声能力;针对当前检测方法存在只能检测单一拓扑结构的蛋白质复合物的问题,提出根据已知蛋白质复合物的大小分布,生成假的蛋白质复合物,本发明设计的若干新拓扑结构特征并对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;针对当前检测方法不能有效地学习已知蛋白质复合物的拓扑特征,提出集成学习Bagging回归模型并设计模型训练方法对该模型进行训练,最后得到蛋白质复合物检测模型。
如图2所示,本发明实施例提供了一种基于有监督学习检测蛋白质复合物的方法,该方法由电子设备实现。如图2所示的基于有监督学习检测蛋白质复合物的方法流程图,该方法的处理流程可以包括如下的步骤:
S21、基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络。
其中,生物信息包括基因表达数据、基因本体、亚细胞定位。
一种可行的实施方式中,上述步骤S21可以包括下述步骤S211-S215:
S211、计算两个相互作用的蛋白质的共表达程度
Figure 115300DEST_PATH_IMAGE014
一种可行的实施方式中,基于基因表达数据衡量蛋白质相互作用边的可靠性,利用PCC(Pearson correlation coefficient,皮尔逊相关系数)衡量两个相互作用的蛋白质的共表达程度。对于两个相互作用的蛋白质
Figure 779631DEST_PATH_IMAGE015
Figure 740633DEST_PATH_IMAGE016
,其基因表达数据分别为
Figure 123204DEST_PATH_IMAGE017
Figure 867169DEST_PATH_IMAGE018
,其PCC如下式(1)所示:
Figure 41799DEST_PATH_IMAGE019
其中,
Figure 282025DEST_PATH_IMAGE020
Figure 542105DEST_PATH_IMAGE021
分别为蛋白质
Figure 27444DEST_PATH_IMAGE015
Figure 791001DEST_PATH_IMAGE016
Figure 703593DEST_PATH_IMAGE022
个时间点的基因表达值的平均值,由于
Figure 450969DEST_PATH_IMAGE014
的取值范围是-1到1,为了方便计算,可以用
Figure 536737DEST_PATH_IMAGE023
代替
Figure 794281DEST_PATH_IMAGE014
,使得取值范围是0到1。
S212、计算两个相互作用的蛋白质的功能相似性
Figure 2408DEST_PATH_IMAGE024
一种可行的实施方式中,从蛋白质功能相似性的角度考虑,利用GO-slim数据描述蛋白质的功能相似性,蛋白质对拥有的GO-slim注释越多说明其功能越相似,其相互作用的可靠性就越强,本发明用
Figure 846867DEST_PATH_IMAGE024
来描述蛋白质的功能相似性,如下式(2)所示:
Figure 798643DEST_PATH_IMAGE025
式中,
Figure 474475DEST_PATH_IMAGE026
为蛋白质
Figure 728870DEST_PATH_IMAGE015
的GO-slim,
Figure 185259DEST_PATH_IMAGE027
为蛋白质
Figure 49047DEST_PATH_IMAGE016
的GO-slim,
Figure 907282DEST_PATH_IMAGE028
为蛋白质
Figure 394895DEST_PATH_IMAGE015
和蛋白质
Figure 213947DEST_PATH_IMAGE016
公共GO-slims的个数。
S213、计算两个相互作用的蛋白质的亚细胞定位相似性
Figure 507525DEST_PATH_IMAGE029
一种可行的实施方式中,两个相互作用的蛋白质共同拥有数量越多的亚细胞定位则其相互作用的可靠性就越强,本发明用
Figure 830053DEST_PATH_IMAGE029
来描述蛋白质亚细胞定位的相似性,如下式(3)所示:
Figure 816463DEST_PATH_IMAGE030
式中,
Figure 418084DEST_PATH_IMAGE031
Figure 390719DEST_PATH_IMAGE032
分别表示蛋白质
Figure 957967DEST_PATH_IMAGE015
和蛋白质
Figure 725065DEST_PATH_IMAGE016
的亚细胞定位个数。
S214、计算两个相互作用的蛋白质的矢量表示相似性
Figure 315447DEST_PATH_IMAGE029
一种可行的实施方式中,图嵌入技术可以自动学习蛋白质相互作用网络的拓扑结构信息,本发明使用Node2Vec(Scalable Feature Learning for Networks,可扩展的网络特性学习)矢量化表示蛋白质相互作用网络中的每个蛋白质,利用余弦相似性计算两个蛋白质矢量表示的相似性,如下式(4)所示:
Figure 950827DEST_PATH_IMAGE033
式中,
Figure 12062DEST_PATH_IMAGE034
Figure 340275DEST_PATH_IMAGE035
分别对应蛋白质
Figure 90056DEST_PATH_IMAGE015
和蛋白质
Figure 997970DEST_PATH_IMAGE016
Figure 415176DEST_PATH_IMAGE022
维矢量。
S215、根据S211-S214的计算结果,得到每条蛋白质相互作用边的权值
Figure 914290DEST_PATH_IMAGE036
,进而得到具有权重的蛋白质相互作用网络。
一种可行的实施方式中,对于每条边,权值
Figure 649903DEST_PATH_IMAGE037
的表示如下式(5):
Figure 627086DEST_PATH_IMAGE038
如果边的权值为0,该边将被视为噪音,将其从蛋白质相互作用网络中删除,而且本发明结合了拓扑结构相似性和生物信息相似性为蛋白质相互作用边的赋予权值可以提高其可靠性。
S22、在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
一种可行的实施方式中,上述步骤S22可以包括下述步骤S221-S223:
S221、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权。
S222、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所述所有边依序插入到种子边队列中。
S223、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S23直到所述种子边队列为空,得到所有蛋白质复合物的核。
一种可行的实施方式中,为了避免生成冗余的蛋白质复合物的核,提高计算效率,本发明将已生成的蛋白质复合物的核中的非重叠蛋白质加入不再访问名单,称之为黑名单,出队的种子边的两个端点蛋白质都不在黑名单中时才进行上述策略形成蛋白质复合物的核。
S23、根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
一种可行的实施方式中,上述步骤S23可以包括下述步骤S231-S232:
S231、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择。
S232、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2。同时,映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
其中,邻域亲和力如下式(6)所示:
Figure 961115DEST_PATH_IMAGE039
其中,A、B分别表示假的蛋白质复合物与已知蛋白质复合物。
一种可行的实施方式中,本发明将蛋白质相互作用网络中的已知和假的蛋白质复合物建模为加权无向图。提取和选择合适的特征是区分真蛋白复合物和假的蛋白复合物的关键。可以使用拓扑特征,如度、节点和边的数量等。本发明采用的蛋白质复合物的拓扑特征如表1所示,表1中拓扑特征名称标*的是本发明提出的新拓扑结构特征。
表1
Figure 506497DEST_PATH_IMAGE041
一种可行的实施方式中,本发明可以使用现有技术中的scikit-learn学习库的Bagging(Bootstrap aggregating,引导聚集算法)回归模型,其参数如下:基估计量设置为Logistic(Logistic regression,线性回归模型),n估计量为100,最大样本数为1.0,最大特征数为1.0,bootstrap为真,bootstrap特征为真,其他使用默认参数。本申请选择Logistic回归作为基估计量的唯一原因是已知蛋白质复合物的数量有限,并且Logistic回归对于较小的训练集更好。逻辑回归使用默认参数。使用bagging回归模型对每个子图进行建模,它被用于估计子图成为真实蛋白质复合物的概率。
S24、基于局部搜索策略和构建好的蛋白质复合物检测模型,得到蛋白质复合物。
一种可行的实施方式中,上述步骤S24可以包括下述步骤S241-S244:
S241、将所有的蛋白质复合物的核记为簇
Figure 355505DEST_PATH_IMAGE001
,确定其邻居集合
Figure 11745DEST_PATH_IMAGE002
和边界节点集合
Figure 698816DEST_PATH_IMAGE003
;边界节点集合如下式(7)所示:
Figure 539733DEST_PATH_IMAGE042
其中,
Figure 16982DEST_PATH_IMAGE004
为簇
Figure 601547DEST_PATH_IMAGE043
中蛋白质的集合;
Figure 847852DEST_PATH_IMAGE044
为簇
Figure 859670DEST_PATH_IMAGE043
中蛋白质对的集合;
Figure 558636DEST_PATH_IMAGE045
为簇
Figure 946892DEST_PATH_IMAGE043
中蛋白质对的可靠性;其中,所述蛋白质对是两个相互作用的蛋白质。
S242、迭代地删除边界节点集合
Figure 375599DEST_PATH_IMAGE003
的蛋白质,使蛋白质复合物检测模型的分数增加,直到蛋白质复合物检测模型的分数不再增加或边界节点集合
Figure 728958DEST_PATH_IMAGE003
中的节点数量小于4,则终止该迭代过程。
S243、迭代地从邻居集合
Figure 180799DEST_PATH_IMAGE002
中选出一个蛋白质添入
Figure 107167DEST_PATH_IMAGE043
中,使蛋白质复合物检测模型的分数增加,并将其从邻居集合
Figure 62484DEST_PATH_IMAGE002
中删除,直到邻居集合
Figure 681684DEST_PATH_IMAGE002
为空或蛋白质复合物检测模型的分数不再增加,则终止该迭代过程。
S244、重复执行S242和S243,直到
Figure 355242DEST_PATH_IMAGE043
不再发生变化,输出结果。
S25、计算蛋白质复合物的蛋白质复合物检测模型得分
Figure 819722DEST_PATH_IMAGE010
,将低于平均分的蛋白质复合物舍弃。
S26、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 393660DEST_PATH_IMAGE011
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
可选地,
Figure 183762DEST_PATH_IMAGE012
一种可行的实施方式中,如果相似性
Figure 79037DEST_PATH_IMAGE046
,说明两个蛋白质复合物高度重叠,此时舍弃蛋白质复合物检测模型得分较低的一个,得到的结果为最终检测出的全部蛋白质复合物。
其中,相似性计算公式如下式(8)所示:
Figure 612786DEST_PATH_IMAGE047
其中,
Figure 542696DEST_PATH_IMAGE048
是蛋白质复合物
Figure 238119DEST_PATH_IMAGE049
中所有蛋白质的集合,
Figure 886270DEST_PATH_IMAGE050
是蛋白质复合物
Figure 161393DEST_PATH_IMAGE051
中所有蛋白质的集合。
本发明实施例中,设计开发了一种基于有监督学习检测蛋白质复合物的方法及装置,通过本发明可以检测出精确度较高并且生物学意义显著的蛋白质复合物,同时训练得到的蛋白质复合物模型能学习到符合真实蛋白质复合物的拓扑结构特征,进而检测蛋白质复合物的能力较高,对蛋白质相互作用网络中的噪声具有较强适应性;进一步提取有效的拓扑特征描述蛋白质复合物,训练得到贴近真实蛋白质复合物拓扑结构的模型。
本发明针对当前方法精度偏低,容忍蛋白质相互作用网络中的噪声能力较弱,检测方法的精度严重依赖于蛋白质相互作用网络的可靠性的问题,提出了基于图嵌入方法结合拓扑属性和生物信息包括基因表达数据、基因本体、亚细胞定位构建具有权重的蛋白质相互作用网络,从而提高蛋白质复合物检测方法在蛋白质相互作用网络中检测蛋白质复合物的精度,增强容忍蛋白质相互作用网络的噪声能力;针对当前检测方法存在只能检测单一拓扑结构的蛋白质复合物的问题,提出根据已知蛋白质复合物的大小分布,生成假的蛋白质复合物,本发明设计的若干新拓扑结构特征并对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;针对当前检测方法不能有效地学习已知蛋白质复合物的拓扑特征,提出集成学习Bagging回归模型并设计模型训练方法对该模型进行训练,最后得到蛋白质复合物检测模型。
如图3所示,本发明实施例提供了一种基于有监督学习检测蛋白质相互作用网络中蛋白质复合物的装置300,该装置300应用于实现基于有监督学习检测蛋白质复合物的方法,该装置300包括:
网络构建模块310,用于基于图嵌入方法结合拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,生物信息包括基因表达数据、基因本体、亚细胞定位。
检测模块320,用于在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
模型构建模块330,用于根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
过程模块340,基于局部搜索策略和构建好的蛋白质复合物检测模型,得到蛋白质复合物。
输出模块350,用于根据蛋白质复合物检测模型分数给蛋白质复合物进行打分并舍弃低分和高度重叠的蛋白质复合物,进而得到挖掘出的蛋白质复合物。
可选地,网络构建模块310,进一步用于:
S11、计算两个相互作用的蛋白质的共表达程度。
S12、计算两个相互作用的蛋白质的功能相似性。
S13、计算两个相互作用的蛋白质的亚细胞定位相似性。
S14、计算两个相互作用的蛋白质的矢量表示相似性。
S15、根据S11-S14的计算结果,得到每条蛋白质相互作用边的权值,进而得到具有权重的蛋白质相互作用网络。
可选地,检测模块320,进一步用于:
S21、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权。
S22、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所有边依序插入到种子边队列中。
S23、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S23直到所述种子边队列为空,得到所有蛋白质复合物的核。
可选地,模型构建模块330,进一步用于:
S31、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择。
S32、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
可选地,模型构建模块330,进一步用于:
S311、将标准蛋白质复合物映射到所述具有权重的蛋白质相互作用网络。
S312、在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2。映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
可选地,过程模块340,进一步用于:
S41、将所有的所述蛋白质复合物的核记为簇
Figure 70443DEST_PATH_IMAGE001
,确定其邻居集合
Figure 396424DEST_PATH_IMAGE002
和边界节点集合
Figure 594187DEST_PATH_IMAGE052
;其中,
Figure 345105DEST_PATH_IMAGE053
为簇
Figure 374241DEST_PATH_IMAGE054
中蛋白质的集合;
Figure 286834DEST_PATH_IMAGE055
为簇
Figure 34210DEST_PATH_IMAGE054
中蛋白质对的集合;
Figure 323240DEST_PATH_IMAGE056
为簇
Figure 206882DEST_PATH_IMAGE054
中蛋白质对的权重的集合;其中,所述蛋白质对是两个相互作用的蛋白质。
S42、迭代地删除所述边界节点集合
Figure 788911DEST_PATH_IMAGE052
中的蛋白质,使所述蛋白质复合物检测回归模型的分数增加,直到所述蛋白质复合物检测回归模型的分数不再增加或所述边界节点集合
Figure 758004DEST_PATH_IMAGE052
中的节点数量小于4,则终止该迭代过程。
S43、迭代地从所述邻居集合
Figure 850725DEST_PATH_IMAGE002
中选出一个蛋白质添入所述
Figure 588874DEST_PATH_IMAGE054
中,使所述蛋白质复合物检测回归模型的分数增加,并将其从所述邻居集合
Figure 108848DEST_PATH_IMAGE002
中删除,直到所述邻居集合
Figure 565237DEST_PATH_IMAGE002
为空或蛋白质复合物检测回归模型的分数不再增加,则终止该迭代过程。
S44、重复执行S42和S43,直到所述
Figure 461649DEST_PATH_IMAGE054
不再发生变化,输出结果。
可选地,输出模块350,进一步用于:
S51、计算所述蛋白质复合物的蛋白质复合物检测模型得分
Figure 319884DEST_PATH_IMAGE057
,将低于平均分的蛋白质复合物舍弃。
S52、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 774873DEST_PATH_IMAGE058
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
可选地,
Figure 328346DEST_PATH_IMAGE059
本发明实施例中,设计开发了一种基于有监督学习检测蛋白质复合物的方法及装置,通过本发明可以检测出精确度较高并且生物学意义显著的蛋白质复合物,同时训练得到的蛋白质复合物模型能学习到符合真实蛋白质复合物的拓扑结构特征,进而检测蛋白质复合物的能力较高,对蛋白质相互作用网络中的噪声具有较强适应性;进一步提取有效的拓扑特征描述蛋白质复合物,训练得到贴近真实蛋白质复合物拓扑结构的模型。
本发明针对当前方法精度偏低,容忍蛋白质相互作用网络中的噪声能力较弱,检测方法的精度严重依赖于蛋白质相互作用网络的可靠性的问题,提出了基于图嵌入方法结合拓扑属性和生物信息包括基因表达数据、基因本体、亚细胞定位构建具有权重的蛋白质相互作用网络,从而提高蛋白质复合物检测方法在蛋白质相互作用网络中检测蛋白质复合物的精度,增强容忍蛋白质相互作用网络的噪声能力;针对当前检测方法存在只能检测单一拓扑结构的蛋白质复合物的问题,提出根据已知蛋白质复合物的大小分布,生成假的蛋白质复合物,本发明设计的若干新拓扑结构特征并对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;针对当前检测方法不能有效地学习已知蛋白质复合物的拓扑特征,提出集成学习Bagging回归模型并设计模型训练方法对该模型进行训练,最后得到蛋白质复合物检测模型。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述基于有监督学习检测蛋白质复合物的方法:
S1、基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,生物信息包括基因表达数据、基因本体、亚细胞定位。
S2、在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核。
S3、根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型。
S4、基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物。
S5、根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于有监督学习检测蛋白质复合物的方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于有监督学习检测蛋白质复合物的方法,其特征在于,所述方法包括:
S1、基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,所述生物信息包括基因表达数据、基因本体、亚细胞定位;
S2、在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核;
S3、根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型;
S4、基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物;
S5、根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
2.根据权利要求1所述的方法,其特征在于,所述S1中的基于图嵌入方法、拓扑属性和生物信息构建具有权重的蛋白质相互作用网络包括:
S11、计算两个相互作用的蛋白质的共表达程度;
S12、计算两个相互作用的蛋白质的功能相似性;
S13、计算两个相互作用的蛋白质的亚细胞定位相似性;
S14、计算两个相互作用的蛋白质的矢量表示相似性;
S15、根据S11-S14的计算结果,得到每条蛋白质相互作用边的权值,进而得到具有权重的蛋白质相互作用网络。
3.根据权利要求1所述的方法,其特征在于,所述S2中所述的在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核包括:
S21、根据所述具有权重的蛋白质相互作用网络中相互作用边的权重和其邻居子图的平均加权度,对所述相互作用边的权值加权;
S22、根据加权后的相互作用边的权值,对所有边进行降序排序,并将所述所有边依序插入到种子边队列中;
S23、从所述种子边队列中出队一条边作为种子边,并保留和所述种子边直接相连且连接权重高于预设阈值的邻居蛋白质,即形成以种子边为中心的蛋白质复合物的核;重复执行S23直到所述种子边队列为空,得到所有蛋白质复合物的核。
4.根据权利要求1所述的方法,其特征在于,所述S3中的根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型包括:
S31、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;
S32、根据对已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
5.根据权利要求4所述的方法,其特征在于,所述S31中的根据所述已知蛋白质复合物的大小分布,并以此分布为基准,生成假的蛋白质复合物集合包括:
S311、将标准蛋白质复合物映射到所述具有权重的蛋白质相互作用网络;
S312、在所述具有权重的蛋白质相互作用网络中,随机选择与所述标准蛋白质复合物遵循相同的幂律分布的真实局部邻域子图,即假的蛋白质复合物;要求所述假的蛋白质复合物与所述已知蛋白质复合物的邻域亲和力小于0.2,映射到所述具有权重的蛋白质相互作用网络的标准蛋白质复合物的数量与假的蛋白质复合物的数量之比为1:1。
6.根据权利要求4所述的方法,其特征在于,所述S4中的基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物包括:
S41、将所有的所述蛋白质复合物的核记为簇
Figure 172512DEST_PATH_IMAGE001
,确定其邻居集合
Figure 230598DEST_PATH_IMAGE002
和边界节点集合
Figure 541494DEST_PATH_IMAGE003
;其中,
Figure 841763DEST_PATH_IMAGE004
为簇
Figure 187293DEST_PATH_IMAGE005
中蛋白质的集合;
Figure 681860DEST_PATH_IMAGE006
为簇
Figure 480052DEST_PATH_IMAGE005
中蛋白质对的集合;
Figure 85476DEST_PATH_IMAGE007
为簇
Figure 285514DEST_PATH_IMAGE005
中蛋白质对的权重的集合;其中,所述蛋白质对是两个相互作用的蛋白质;
S42、迭代地删除所述边界节点集合
Figure 685402DEST_PATH_IMAGE003
中的蛋白质,使所述蛋白质复合物检测回归模型的分数增加,直到所述蛋白质复合物检测回归模型的分数不再增加或所述边界节点集合
Figure 970890DEST_PATH_IMAGE003
中的节点数量小于4,则终止该迭代过程;
S43、迭代地从所述邻居集合
Figure 612962DEST_PATH_IMAGE008
中选出一个蛋白质添入所述
Figure 667505DEST_PATH_IMAGE005
中,使所述蛋白质复合物检测回归模型的分数增加,并将其从所述邻居集合
Figure 503874DEST_PATH_IMAGE008
中删除,直到所述邻居集合
Figure 417604DEST_PATH_IMAGE008
为空或蛋白质复合物检测回归模型的分数不再增加,则终止该迭代过程;
S44、重复执行S42和S43,直到所述
Figure 223886DEST_PATH_IMAGE005
不再发生变化,输出结果。
7.根据权利要求1所述的方法,其特征在于,所述S5中的根据蛋白质复合物检测模型给蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物包括:
S51、计算所述蛋白质复合物的蛋白质复合物检测模型得分
Figure 273881DEST_PATH_IMAGE009
,将低于平均分的蛋白质复合物舍弃;
S52、对于舍弃后剩余的蛋白质复合物,两两计算其相似性,如果相似性大于或者等于预设阈值
Figure 140206DEST_PATH_IMAGE010
,则舍弃蛋白质复合物检测模型得分较低的一个,得到挖掘出的蛋白质复合物。
8.根据权利要求7所述的方法,其特征在于,所述
Figure 570925DEST_PATH_IMAGE011
9.一种基于有监督学习检测蛋白质复合物的装置,其特征在于,所述装置包括:
网络构建模块,用于基于图嵌入方法结合拓扑属性和生物信息构建具有权重的蛋白质相互作用网络;其中,所述生物信息包括基因表达数据、基因本体、亚细胞定位;
检测模块,用于在具有权重的蛋白质相互作用网络中检测蛋白质复合物的核;
模型构建模块,用于根据有监督学习的蛋白质复合物模型训练方法,训练得到蛋白质复合物检测模型;
过程模块,基于局部搜索策略和构建好的蛋白质复合物检测模型,延伸蛋白质复合物的核形成蛋白质复合物;
输出模块,用于根据蛋白质复合物检测模型分数给所述蛋白质复合物进行打分并过滤掉低分且高度重叠的蛋白质复合物,得到挖掘出的蛋白质复合物。
10.根据权利要求9所述的装置,其特征在于,所述模型构建模块,进一步用于:
S31、根据已知蛋白质复合物的大小分布,并以此分布为基准,生成同分布的假的蛋白质复合物集合,并对所述已知蛋白质复合物和假的蛋白质复合物进行特征提取和选择;
S32、根据对已知蛋白质复合物和假蛋白质复合物进行特征提取和选择的结果,对集成学习Bagging回归模型进行训练,得到蛋白质复合物检测模型。
CN202111558297.XA 2021-12-20 2021-12-20 基于有监督学习检测蛋白质复合物的方法及装置 Active CN113990397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111558297.XA CN113990397B (zh) 2021-12-20 2021-12-20 基于有监督学习检测蛋白质复合物的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111558297.XA CN113990397B (zh) 2021-12-20 2021-12-20 基于有监督学习检测蛋白质复合物的方法及装置

Publications (2)

Publication Number Publication Date
CN113990397A true CN113990397A (zh) 2022-01-28
CN113990397B CN113990397B (zh) 2022-03-29

Family

ID=79734037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111558297.XA Active CN113990397B (zh) 2021-12-20 2021-12-20 基于有监督学习检测蛋白质复合物的方法及装置

Country Status (1)

Country Link
CN (1) CN113990397B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741528A (zh) * 2022-03-31 2022-07-12 同济大学 一种高效构建人类蛋白质复合物图谱的方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076036A1 (en) * 2016-11-27 2017-03-16 InSyBio Ltd Protein functional and sub-cellular annotation in a proteome
CN106778063A (zh) * 2016-12-02 2017-05-31 上海电机学院 一种基于图模型的蛋白质复合物识别方法
CN109616153A (zh) * 2018-12-05 2019-04-12 陕西师范大学 一种采用改进的hits算法识别关键蛋白质的方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN113724787A (zh) * 2021-07-28 2021-11-30 扬州大学 一种基于核心-附件结构的蛋白质复合物识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076036A1 (en) * 2016-11-27 2017-03-16 InSyBio Ltd Protein functional and sub-cellular annotation in a proteome
CN106778063A (zh) * 2016-12-02 2017-05-31 上海电机学院 一种基于图模型的蛋白质复合物识别方法
CN109616153A (zh) * 2018-12-05 2019-04-12 陕西师范大学 一种采用改进的hits算法识别关键蛋白质的方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN113724787A (zh) * 2021-07-28 2021-11-30 扬州大学 一种基于核心-附件结构的蛋白质复合物识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741528A (zh) * 2022-03-31 2022-07-12 同济大学 一种高效构建人类蛋白质复合物图谱的方法与系统

Also Published As

Publication number Publication date
CN113990397B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN110224987B (zh) 基于迁移学习的网络入侵检测模型的构建方法、检测系统
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN113887580B (zh) 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置
CN113139664B (zh) 一种跨模态的迁移学习方法
Liu et al. Dynamic local search based immune automatic clustering algorithm and its applications
CN113221065A (zh) 数据密度估计及回归方法、相应装置、电子设备、介质
CN113361627A (zh) 一种面向图神经网络的标签感知协同训练方法
CN111209611A (zh) 一种基于双曲几何的有向网络空间嵌入方法
CN113364751A (zh) 网络攻击预测方法、计算机可读存储介质及电子设备
Cai et al. ARIS: a noise insensitive data pre-processing scheme for data reduction using influence space
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
Zhou et al. Betweenness centrality-based community adaptive network representation for link prediction
CN113990397B (zh) 基于有监督学习检测蛋白质复合物的方法及装置
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
CN113269274A (zh) 一种基于循环一致性的零样本识别方法及系统
Guo et al. Multi-view feature learning for VHR remote sensing image classification
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN116881916B (zh) 基于异质图神经网络的恶意用户检测方法及装置
CN112307914B (zh) 一种基于文本信息指导的开放域图像内容识别方法
CN113779520A (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
Lim et al. A fuzzy qualitative approach for scene classification
CN117009613A (zh) 一种图数据分类方法、系统、装置及介质
CN115086179B (zh) 一种社交网络中社区结构的检测方法
CN116958720A (zh) 目标检测模型的训练方法、目标检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant