CN114023375A - 一种基于全局采样子图的宽度学习酶蛋白检测方法及系统 - Google Patents

一种基于全局采样子图的宽度学习酶蛋白检测方法及系统 Download PDF

Info

Publication number
CN114023375A
CN114023375A CN202111588200.XA CN202111588200A CN114023375A CN 114023375 A CN114023375 A CN 114023375A CN 202111588200 A CN202111588200 A CN 202111588200A CN 114023375 A CN114023375 A CN 114023375A
Authority
CN
China
Prior art keywords
network
mapping
graph
node
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111588200.XA
Other languages
English (en)
Inventor
宣琦
陈鹏涛
王金焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Publication of CN114023375A publication Critical patent/CN114023375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于全局采样子图的宽度学习酶蛋白检测方法,包括:S0:结构转换,将蛋白质分子结构转化为图结构;S1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;S2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;S3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;S4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得酶蛋白的检测精度。本发明实现高效的精准的酶蛋白检测。

Description

一种基于全局采样子图的宽度学习酶蛋白检测方法及系统
技术领域
本发明涉及网络科学、数据挖掘以及酶蛋白检测技术,特别是一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。
背景技术
近年来,图数据越来越受到广泛的关注。在现实生活中的社交关系网络、生物蛋白质网络以及文献的引用网络本质上都可以用图来刻画。而酶蛋白在自然界中以各种各样存在,如何识别蛋白质是否具有酶性在生物催化领域有着很广泛的前景。图分类问题则是图数据挖掘中一个常见的任务,如在蛋白质毒理性推断以及化学分子性质预测等方面都有广泛的应用,所以将图分类和酶检测结合在一起考虑就变得非常有意义。
子图是网络中的一个基本组件,它能够用于描述网络中更加深层次的信息。由不同子图构成的网络通常存在着截然不同的拓扑属性,因此将子图集成到许多图算法当中往往能实现更高的算法性能。目前大多数子图的获取都是通过采样的方法,最常用的是基于随机游走和有偏游走的局部采样。而本发明则提供了一种基于全局的连边采样方式。
深度学习近些年是人工智能领域研究的热点和主流,因为其性能的优势在各大领域被广泛的提及和使用。然而,深度学习的模型具有参数量大的问题,进而带来算力损耗和时间损耗大的欠缺。本发明则使用了宽度网络分类器大大降低了参数更新量,实现时间上的优化。
申请号为2019110684734的专利所公开的技术方案,一种基于采样子图网络的节点分类方法,该方法使用随机游走策略对网络进行局部采样,通过图映射机制将采样图映射成多个子图然后进行特征矩阵融合,使用极限随机树对网络节点进行分类。该方法使用了随机游走的策略得到局部的网络结构,而缺失了全局的内在信息导致分类精度欠缺,而使用极限随机树作为分类器在分类训练速度上还有待增强。
发明内容
本发明要克服酶蛋白检测技术的上述缺陷,将酶蛋白检测与图分类结合,一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。
本发明将蛋白质结构转化为图结构,利用全局采样的策略、图映射方法以及宽度网络分类器构建了一个图分类的模型,该模型通过全局采样和图映射充分提取了图的内部结构与全局信息,将图中提取的特征信息有监督的训练宽度网络分类器,从而实现对蛋白质精确的酶性检测。
本发明实现上述发明目的所采用的技术方案如下:
一种基于全局采样子图的宽度学习酶蛋白检测方法,包括以下步骤:
S0:结构转换,将蛋白质分子结构转化为图结构;
S1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;
S2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;
S3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;
S4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得酶蛋白的检测精度。
进一步的,所述步骤S0具体包括:
获取蛋白质的分子结构,将蛋白质分子中的碳、氢、氧、氮、硫等原子转化成图中的节点,将蛋白质分子中的化学键转化成连边。通过以上过程,一个蛋白质分子就转化成了一个原始网络G。
进一步的,所述步骤S1具体包括:
S1.1:对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1)。并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中。
S1.2:在节点池Vp中随机选择一个当前节点记做u。在总连边集E中随机选择一条边ec=(u,d)使得
Figure BDA0003428797980000031
S1.3:将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中。
S1.4:重复S1.2与S1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|。由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络。
S1.5:对S1.1-S1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。
进一步的,所述步骤S2具体包括:
S2.1:一阶子图映射。本发明的子图映射是根据SGN规则来执行的。所谓SGN是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点。其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边。根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N)。
S2.2:二阶子图映射。一阶子图是在原始网络图的基础上按照SGN规则映射出来的。同理,二阶子图则是一阶子图按照SGN规则再次映射得到。即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。
进一步的,所述步骤S3具体包括:
S3.1:特征提取:
使用Graph2vec模型对原始网络G、一阶子网络Gi1(i=1,2,3…N)以及二阶子网络Gi2(i=1,2,3…N)分别提取K维特征,分别表示为F、Fi1(i=1,2,3…N)以及Fi2(i=1,2,3…N)。
S3.2:特征融合:
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为Fe=[F,F11,F21,…,FN1,F12,…FN2]∈R(2N+1)×K
进一步的,所述步骤S4的具体包括:
S4.1:宽度网络分类器构建。宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示。其中特征节点特征为Zi=φ(FeWzizi)(i=1,...,n),其中Fe为上述得到的图表示,其中权重Wzi与偏置βzi则根据维度随机产生,而φ(·)则是一个线性激活函数。将所有特征节点特征横向组合便得到特征节点的总特征Zn=[Z1,Z2,…,Zn]。特征节点的构造部分就结束了。而增强节点特征Hj=σ(ZnWrj+Brj)(j=1,…,n)。其中的σ(·)是非线性激活函数。同理,我们将增强节点特征融合得到Hm=[H1,H2,…,Hm]。将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分A=[Zn,Hm]。那么宽度网络分类器的预测输出便是
Figure BDA0003428797980000041
其中W权重矩阵便是宽度网络需要训练的部分。
S4.2:优化和评价。W矩阵则是通过优化
Figure BDA0003428797980000042
得到。通过一定的等价变换,从形式上可以得到W=(ATA+λI)-1ATY。这样通过数据喂入便可以得到特定的W矩阵,进而实现对未知图数据的预测。通过十折交叉验证得到分类精度。
实施本发明的一种基于全局采样子图的宽度学习酶蛋白检测方法的系统,包括依次连接的转换模块、采样模块、图映射模块、特征模块、分类模块;
所述转换模块,输入一个待鉴定的蛋白质的分子结构,通过对应的技术将蛋白质分子网络转化成图网络结构;
所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;
所述图映射模块,对采样模块得到的若干子网络分别进行SGN一次与二次的图映射,得到一阶与二阶的映射网络并保存;
所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用Graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;
所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预测,十折交叉验证得到实际精度。
本发明采用全局的采样策略和子图映射来对原始图数据进行扩充,补充了图表征算法难以提取的特征,实现更高的图分类精度。而使用宽度网络分类器则进一步实现精确的酶蛋白检测。
本发明的技术构思为:本发明提出了一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。其中,提出了一种蛋白质网络转图结构的方法以及全新的基于全局的图采样策略,结合SGN图映射与Graph2vec特征提取模型得到较优的图表述,最后通过宽度网络分类器既高效又准确的实现酶蛋白检测任务。
本发明的有益效果为:本发明将酶蛋白检测与图分类结合,首先提出了一种全新的全局图采样策略,一方面保留了图中竟可能多的全局信息,另一方面降低下游SGN任务的复杂度。其次,使用SGN规则来进行图映射,充分利用图中的结构信息进一步来提升后续酶蛋白检测精度。最后本发明还使用了宽度网络分类器,与现有技术相比,实现高效的精准检测。
附图说明
图1为本发明方法的流程示意图。
图2a~图2b为本发明全局采样方法的示意图。图2a表示原始网络,图2b表示采样后网络,其中连边上的序号表示连边的采样顺序。
图3a~图3b为本发明SGN子图映射方法的示意图。图3a为SGN变换前原始网络(连边上序号即是连边的变化),图3b则是SGN变换后网络,其节点由图3a连边映射而来,所以图3b的节点序号和图3a连边序号是一一对应的。
图4为本发明方法宽度网络分类器部分示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
参照图1~图4,一种基于全局采样子图的宽度学习酶蛋白检测方法,步骤如下:
S0)结构转换,将蛋白质分子结构转化为图结构。获取蛋白质的分子结构,将蛋白质分子中的碳、氢、氧、氮、硫等原子转化成图中的节点,将蛋白质分子中的化学键转化成连边。通过以上过程,一个蛋白质分子就转化成了一个原始网络G。
S1)全局采样,对原始图按照连边进行N次全局采样得到N个子网络;
S1.1)对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1)。并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中。
S1.2)在节点池Vp中随机选择一个当前节点记做u。在总连边集E中随机选择一条边ec=(u,d)使得
Figure BDA0003428797980000071
S1.3)将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中。
S1.4)重复1.2与1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|。由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络。
S1.5)对1.1-1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。
S2)子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;
S2.1)一阶子图映射。本发明的子图映射是根据SGN规则来执行的。所谓SGN是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点。其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边。根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N)。
S2.2)二阶子图映射。一阶子图是在原始网络图的基础上按照SGN规则映射出来的。同理,二阶子图则是一阶子图按照SGN规则再次映射得到。即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。
S3)特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;
S3.1)特征提取:
使用Graph2vec模型对原始网络G、一阶子网络Gi1(i=1,2,3…N)以及二阶子网络Gi2(i=1,2,3…N)分别提取K维特征,分别表示为F、Fi1(i=1,2,3…N)以及Fi2(i=1,2,3…N)。
S3.2)特征融合:
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为Fe=[F,F11,F21,…,FN1,F12,…FN2]∈R(2N+1)×K
S4)宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得图分类的精度。
S4.1)宽度网络分类器构建。宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示。其中特征节点特征为Zi=φ(FeWzizi)(i=1,...,n),其中Fe为上述得到的图表示,其中权重Wzi与偏置βzi则根据维度随机产生,而φ(·)则是一个线性激活函数。将所有特征节点特征横向组合便得到特征节点的总特征Zn=[Z1,Z2,…,Zn]。特征节点的构造部分就结束了。而增强节点特征Hj=σ(ZnWrj+Brj)(j=1,…,n)。其中的σ(·)是非线性激活函数。同理,我们将增强节点特征融合得到Hm=[H1,H2,…,Hm]。将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分A=[Zn,Hm]。那么宽度网络分类器的预测输出便是
Figure BDA0003428797980000081
其中W权重矩阵便是宽度网络需要训练的部分。
S4.2)优化和评价。W矩阵则是通过优化
Figure BDA0003428797980000082
得到。通过一定的等价变换,从形式上可以得到W=(ATA+λI)-1ATY。这样通过数据喂入便可以得到特定的W矩阵,进而实现对未知图数据的预测。通过十折交叉验证得到分类精度。
实施本发明的一种基于全局采样子图的宽度学习酶蛋白检测方法的系统,包括:转换模块、采样模块、图映射模块、特征模块、分类模块;
所述转换模块,输入一个待鉴定的蛋白质分子结构,通过对应的技术将蛋白质分子网络转化成图网络结构;
所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;具体包括:
S1.1:对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1),并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中;
S1.2:在节点池Vp中随机选择一个当前节点记做u,在总连边集E中随机选择一条边ec=(u,d)使得
Figure BDA0003428797980000091
S1.3:将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中;
S1.4:重复S1.2与S1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|,由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络;
S1.5:对S1.1-S1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。
所述图映射模块,对采样模块得到的若干子网络分别进行SGN一次与二次的图映射,得到一阶与二阶的映射网络并保存;具体包括:
S2.1:一阶子图映射,本发明的子图映射是根据SGN规则来执行的,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点;其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边;根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N);
S2.2:二阶子图映射,一阶子图是在原始网络图的基础上按照SGN规则映射出来的;同理,二阶子图则是一阶子图按照SGN规则再次映射得到,即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。
所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用Graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;具体包括:
S3.1:特征提取:
使用Graph2vec模型对原始网络G、一阶子网络Gi1(i=1,2,3…N)以及二阶子网络Gi2(i=1,2,3…N)分别提取K维特征,分别表示为F、Fi1(i=1,2,3…N)以及Fi2(i=1,2,3…N);
S3.2:特征融合:
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为Fe=[F,F11,F21,…,FN1,F12,…FN2]∈R(2N+1)×K
所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预测,十折交叉验证得到实际精度;具体包括:
S4.1:宽度网络分类器构建,宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示,其中特征节点特征为Zi=φ(FeWzizi)(i=1,...,n),其中Fe为上述得到的图表示,其中权重Wzi与偏置βzi则根据维度随机产生,而φ(·)则是一个线性激活函数,将所有特征节点特征横向组合便得到特征节点的总特征Zn=[Z1,Z2,…,Zn],特征节点的构造部分就结束了,而增强节点特征Hj=σ(ZnWrj+Brj)(j=1,…,n),其中的σ(·)是非线性激活函数,同理,我们将增强节点特征融合得到Hm=[H1,H2,…,Hm],将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分A=[Zn,Hm],那么宽度网络分类器的预测输出便是
Figure BDA0003428797980000111
其中W权重矩阵便是宽度网络需要训练的部分;
S4.2:优化和评价,W矩阵则是通过优化
Figure BDA0003428797980000112
得到,通过一定的等价变换,从形式上可以得到W=(ATA+λI)-1ATY,这样通过数据喂入便可以得到特定的W矩阵,进而实现对未知图数据的预测,通过十折交叉验证得到分类精度。
所述转换模块、所述采样模块、所述图映射模块、所述特征模块和所述分类模块依次链接。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (7)

1.一种基于全局采样子图的宽度学习酶蛋白检测方法,包括以下步骤:
S0:结构转换,将蛋白质分子结构转化为图结构;
S1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;
S2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;
S3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;
S4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得酶蛋白的检测精度。
2.如权利要求1所述的一种基于全局采样子图的宽度学习酶蛋白检测方法,其特征在于:所述步骤S0具体包括:
获取蛋白质的分子结构,将蛋白质分子中的碳、氢、氧、氮、硫等原子转化成图中的节点,将蛋白质分子中的化学键转化成连边;通过以上过程,一个蛋白质分子就转化成了一个原始网络G。
3.如权利要求1所述的一种基于全局采样子图的宽度学习酶蛋白检测方法,其特征在于:所述步骤S1具体包括:
S1.1:对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1);并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中;
S1.2:在节点池Vp中随机选择一个当前节点记做u;在总连边集E中随机选择一条边ec=(u,d)使得
Figure FDA0003428797970000021
S1.3:将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中;
S1.4:重复S1.2与S1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|;由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络;
S1.5:对S1.1-S1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。
4.如权利要求1所述的一种基于全局采样子图的宽度学习酶蛋白检测方法,其特征在于:所述步骤S2具体包括:
S2.1:一阶子图映射;本发明的子图映射是根据SGN规则来执行的;所谓SGN是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点;其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边;根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N);
S2.2:二阶子图映射;一阶子图是在原始网络图的基础上按照SGN规则映射出来的;同理,二阶子图则是一阶子图按照SGN规则再次映射得到;即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。
5.如权利要求1所述的一种基于全局采样子图的宽度学习酶蛋白检测方法,其特征在于:所述步骤S3具体包括:
S3.1:特征提取:
使用Graph2vec模型对原始网络G、一阶子网络Gi1(i=1,2,3…N)以及二阶子网络Gi2(i=1,2,3…N)分别提取K维特征,分别表示为F、Fi1(i=1,2,3…N)以及Fi2(i=1,2,3…N);
S3.2:特征融合:
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为Fe=[F,F11,F21,…,FN1,F12,…FN2]∈R(2N+1)×K
6.如权利要求1所述的一种基于全局采样子图的宽度学习酶蛋白检测方法,其特征在于:所述步骤S4的具体包括:
S4.1:宽度网络分类器构建;宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示;其中特征节点特征为Zi=φ(FeWzizi)(i=1,...,n),其中Fe为上述得到的图表示,其中权重Wzi与偏置βzi则根据维度随机产生,而φ(·)则是一个线性激活函数;将所有特征节点特征横向组合便得到特征节点的总特征Zn=[Z1,Z2,…,Zn];特征节点的构造部分就结束了;而增强节点特征Hj=σ(ZnWrj+Brj)(j=1,…,n);其中的σ(·)是非线性激活函数;同理,我们将增强节点特征融合得到Hm=[H1,H2,…,Hm];将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分A=[Zn,Hm];那么宽度网络分类器的预测输出便是
Figure FDA0003428797970000031
其中W权重矩阵便是宽度网络需要训练的部分;
S4.2:优化和评价;W矩阵则是通过优化
Figure FDA0003428797970000041
Figure FDA0003428797970000042
得到;通过一定的等价变换,从形式上可以得到W=(ATA+λI)-1ATY;这样通过数据喂入便可以得到特定的W矩阵,进而实现对未知图数据的预测;通过十折交叉验证得到分类精度。
7.实施本发明的一种基于全局采样子图的宽度学习酶蛋白检测方法的系统,其特征在于:包括依次连接的转换模块、采样模块、图映射模块、特征模块、分类模块;
所述转换模块,输入一个待鉴定的蛋白质的分子结构,通过对应的技术将蛋白质分子网络转化成图网络结构;
所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;
所述图映射模块,对采样模块得到的若干子网络分别进行SGN一次与二次的图映射,得到一阶与二阶的映射网络并保存;
所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用Graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;
所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预测,十折交叉验证得到实际精度。
CN202111588200.XA 2021-03-12 2021-12-23 一种基于全局采样子图的宽度学习酶蛋白检测方法及系统 Pending CN114023375A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021102704146 2021-03-12
CN202110270414.6A CN113111914A (zh) 2021-03-12 2021-03-12 一种基于全局采样子图的图宽度学习分类方法及系统

Publications (1)

Publication Number Publication Date
CN114023375A true CN114023375A (zh) 2022-02-08

Family

ID=76711227

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110270414.6A Withdrawn CN113111914A (zh) 2021-03-12 2021-03-12 一种基于全局采样子图的图宽度学习分类方法及系统
CN202111588200.XA Pending CN114023375A (zh) 2021-03-12 2021-12-23 一种基于全局采样子图的宽度学习酶蛋白检测方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110270414.6A Withdrawn CN113111914A (zh) 2021-03-12 2021-03-12 一种基于全局采样子图的图宽度学习分类方法及系统

Country Status (1)

Country Link
CN (2) CN113111914A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447109A (zh) * 2018-09-17 2019-03-08 浙江工业大学 一种基于子图网络的图分类方法
CN110826570A (zh) * 2019-10-25 2020-02-21 西安科技大学 一种ect两相流基于宽度学习的流型识别方法
CN110956199A (zh) * 2019-11-05 2020-04-03 浙江工业大学 一种基于采样子图网络的节点分类方法
CN110993037A (zh) * 2019-10-28 2020-04-10 浙江工业大学 一种基于多视图分类模型的蛋白质活性预测装置
CN111696345A (zh) * 2020-05-08 2020-09-22 东南大学 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法
CN112380931A (zh) * 2020-10-30 2021-02-19 浙江工业大学 一种基于子图网络的调制信号分类方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447109A (zh) * 2018-09-17 2019-03-08 浙江工业大学 一种基于子图网络的图分类方法
CN110826570A (zh) * 2019-10-25 2020-02-21 西安科技大学 一种ect两相流基于宽度学习的流型识别方法
CN110993037A (zh) * 2019-10-28 2020-04-10 浙江工业大学 一种基于多视图分类模型的蛋白质活性预测装置
CN110956199A (zh) * 2019-11-05 2020-04-03 浙江工业大学 一种基于采样子图网络的节点分类方法
CN111696345A (zh) * 2020-05-08 2020-09-22 东南大学 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法
CN112380931A (zh) * 2020-10-30 2021-02-19 浙江工业大学 一种基于子图网络的调制信号分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C.L.PHILIP CHEN: "Broad Learning System: a new learning paradigm and system without going deep", 《2017 IEEE》 *
JINHUAN WANG ET AL.: "Sampling Subgraph Network with Application to Graph Classification", 《ARXIV》 *
QI XUAN: "Subgraph Networks with Application to Structural Feature Space Expansion", 《ARXIV》 *

Also Published As

Publication number Publication date
CN113111914A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Malek et al. Multivariate deep learning approach for electric vehicle speed forecasting
CN112288091A (zh) 基于多模态知识图谱的知识推理方法
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN113780002B (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN111950594A (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
Yanhaona et al. Discovering pairwise compatibility graphs
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN113282612A (zh) 一种基于科学合作异质网络分析的作者会议推荐方法
CN111967675A (zh) 光伏发电量的预测方法以及预测装置
CN114064627A (zh) 一种针对多重关系的知识图谱链接补全方法及系统
CN114611617A (zh) 基于原型网络的深度领域自适应图像分类方法
CN115511145A (zh) 一种基于子图网络和对比学习的化合物性质预测方法
CN114841318A (zh) 基于跨模态知识蒸馏的智能合约漏洞检测方法
CN116862080B (zh) 一种基于双视角对比学习的碳排放预测方法及系统
CN114023375A (zh) 一种基于全局采样子图的宽度学习酶蛋白检测方法及系统
Gilbert et al. Efficient construction of photonic quantum-computational clusters
CN110956199A (zh) 一种基于采样子图网络的节点分类方法
Khanteymoori et al. Structure learning in Bayesian networks using asexual reproduction optimization
CN115526293B (zh) 一种顾及语义和结构信息的知识图谱推理方法
CN110674922A (zh) 一种基于深度学习的网络表征获取方法
Shynkarenko et al. Modeling of the Deterministic Fractal Time Series by One Rule Constructors
CN115631057A (zh) 一种基于图神经网络的社交用户分类方法及系统
Zhuo et al. Proximity Enhanced Graph Neural Networks with Channel Contrast.
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220208

WD01 Invention patent application deemed withdrawn after publication