CN111916144A - 基于自注意力神经网络和粗化算法的蛋白质分类方法 - Google Patents
基于自注意力神经网络和粗化算法的蛋白质分类方法 Download PDFInfo
- Publication number
- CN111916144A CN111916144A CN202010730960.9A CN202010730960A CN111916144A CN 111916144 A CN111916144 A CN 111916144A CN 202010730960 A CN202010730960 A CN 202010730960A CN 111916144 A CN111916144 A CN 111916144A
- Authority
- CN
- China
- Prior art keywords
- protein
- self
- neural network
- node
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 114
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 102000004190 Enzymes Human genes 0.000 description 9
- 108090000790 Enzymes Proteins 0.000 description 9
- 238000004088 simulation Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 229910052760 oxygen Inorganic materials 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- INGWEZCOABYORO-UHFFFAOYSA-N 2-(furan-2-yl)-7-methyl-1h-1,8-naphthyridin-4-one Chemical compound N=1C2=NC(C)=CC=C2C(O)=CC=1C1=CC=CO1 INGWEZCOABYORO-UHFFFAOYSA-N 0.000 description 1
- MYMOFIZGZYHOMD-UHFFFAOYSA-N Dioxygen Chemical compound O=O MYMOFIZGZYHOMD-UHFFFAOYSA-N 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 206010028400 Mutagenic effect Diseases 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 108010002255 deoxyhemoglobin Proteins 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- -1 heteroaromatic nitro compounds Chemical class 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 231100000243 mutagenic effect Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于自注意力神经网络和粗化算法的蛋白质分类方法。其步骤为:(1)构建自注意力神经网络;(2)生成蛋白质训练集;(3)利用粗化算法粗化图结构;(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;(5)训练自注意力神经网络;(6)对无标签蛋白质样本进行识别。本发明搭建并训练了一个自注意力神经网络,能更好地捕获蛋白质的层次结构信息,采用粗化算法使得本发明在处理大型蛋白质分子时有着较短的处理时间和较大的空间利用率。
Description
技术领域
本发明属于物理技术领域,更进一步涉及图像分类技术领域中的一种基于自注意力神经网络和粗化算法的蛋白质分类方法。本发明可根据蛋白质图的结构特征和分子节点属性,通过自注意力对图结构和节点属性提取蛋白质分子的属性信息,并根据该信息来进行分类,比如判断某个蛋白质分子是否为酶分子。
背景技术
蛋白质分子作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示,即通常用于表征一组对象(即节点)及其关系(即边缘)。在常规的蛋白质分类技术中,通常需要通过一系列的物理或者化学实验才能判断某个蛋白质的特性,比如判断某一个蛋白质分子是否为酶。机器学习作为一种先进技术,现在也被应用于这些工作中,这些蛋白质分子被作为一个图结构数据输入到一个特定的机器学习模型中,然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上,把未知的蛋白质分子结构以及其属性信息输入进去,最终得出一个这个蛋白质的化学物理特性。
上海极链网络科技有限公司在其申请的专利文献“一种蛋白质图像分类方法、装置、设备及介质”(申请号:202010030899.7,申请公布号:111242922A)中提出了一种对蛋白质图像进行分类方法。该方法的实施步骤是:步骤1,获取原始蛋白质图像,根据所述原始蛋白质图像生成待分类蛋白质图像。步骤2,将所述待分类蛋白质图像输入至预先训练好的蛋白质分类模型中,获得所述蛋白质分类模型输出的分类结果。步骤3,根据所述分类结果确定所属原始蛋白质图像的类别。该方法存在的不足之处是,忽略了蛋白质图像分类中的结构信息,在蛋白质分子中,不同的分子结构可能会带来与其结构对应的蛋白质特性的巨大变化,比如脱氧血红蛋白与氧的亲和力很低,不易与氧结合。例如如果血红蛋白分子中的一个亚基与一个氧分子结合,就会引起该亚基构象发生改变,并引起其它三个亚基的构象相继发生变化,使这三个亚基易于和氧结合,而这两种构象在图像上呈现出来的是几乎无差别的,这会导致得到错误的分类结果。
青岛海洋科学与技术国家实验室发展中心在其申请的专利文献“蛋白质分类方法”(申请号:201911376845.X,申请公布号:111210870A)中提出了一种基于蛋白质三维模型的分类方法。该方法的实施步骤是:步骤1,将蛋白质三维模型置入N*N*N大小的体素占据网格。N表示该蛋白质中原子的数量。步骤2,对体素占据网格投射N*N条射线,每条射线通过N个体素的中心。步骤3,基于射线与蛋白质三维模型的相交情况构建占据模型。步骤4,将占据模型通过三维卷积神经网络实现对蛋白质的分类。该方法存在的不足之处是,通过蛋白质的三维模型进行分类时,在处理每一个蛋白质分子中都需要占用N*N*N大小的存储空间,如果该蛋白质分子的组成原子数量较大时,会占用较大的空间并导致较低的空间利用率,使得计算机在运算时造成了大量的无效运算,最终会影响到分类的效率。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于自注意力神经网络和粗化算法的蛋白质分类方法,用于解决现有分类方法忽略了蛋白质图像分类中的结构信息和占用较大的空间并导致较低的空间利用率的问题。
实现本发明目的的思路是,构建蛋白质数据集,粗化蛋白质图结构,构建并训练自注意力神经网络,将神经网络的输出和图标签相对应,对待识别蛋白质样本进行识别,使得网络能够精准识别蛋白质类别。
实现本发明目的的具体步骤如下:
(1)构建自注意力神经网络:
(1a)搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层;
(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别设置为ReLU函数和Softmax函数,其中,在蛋白质数据集内,每一个蛋白质样本都由若干个节点组成,N则表示该数据集内所有样本的节点数中的最大值;
(2)生成蛋白质训练集:
(2a)随机选取至少5000个蛋白质样本组成训练集,每一个蛋白质样本均包含其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质分子的类别标签;
(2b)对训练集内的每个蛋白质分子进行建模,生成由节点和连接边组成的包含多边形结构和单链结构的图结构;
(3)利用粗化算法粗化图结构:
(3a)利用粗化算法的多边形优化算法,将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后,删除该多边形结构原有的内部连接边;
(3b)利用粗化算法的单链池化算法,将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后,在该单链结构的首尾节点间生成一条连接边;
(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;
(5)训练自注意力神经网络:
(5a)将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中;
(5b)用梯度下降法,更新自注意力神经网络的权值直到损失函数收敛为止,得到训练好的自注意力神经网络;
(6)对无标签蛋白质样本进行识别:
(6a)将一个无标签待识别的蛋白质样本输入到自注意力神经网络中,输出一个类别特征向量,C表示该蛋白质样本可能属于的类别数量,该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率;
(6b)从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。
本发明与现有技术相比有以下优点:
第一,由于本发明搭建并训练了一个自注意力神经网络,用于对蛋白质的样本进行分类,克服了现有分类方法忽略了蛋白质图像分类中的结构信息,导致错误分类结果的问题,使得本发明能更好地捕获蛋白质的层次结构信息,从而获得了更准确的分类结果。
第二,由于本发明利用粗化算法粗化图结构,将原有的图结构粗化为一个较小的图结构,克服了现有分类方法占用较大的空间并导致较低的空间利用率的问题,本发明在处理大型蛋白质分子时有着较短的处理时间和较大的空间利用率。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图1对本发明的实现步骤做进一步的描述。
步骤1,构建自注意力神经网络。
搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层。
所述第一图卷积网络层采用的自注意力公式如下:
其中,H(k+1)表示第一图卷积网络层中第k+1阶的节点特征矩阵,k表示第一图卷积网络层中阶的序号,n表示一个蛋白质图结构的节点总数,Π表示堆叠操作,表示第一图卷积网络层中第k阶的节点特征矩阵第i行的特征向量,Dp表示节点p的度数,p的取值与i的取值对应相等,∑表示累加操作,Ner()表示节点的邻居节点集合,j表示Ner(i)中节点的序号,∈表示属于符号,αx,y表示节点x对节点y的注意力系数,x的取值与i的取值对应相等,y的取值与j的取值对应相等,ω表示一个可学习的全局参数,表示第一图卷积网络层中第k-1阶节点特征矩阵第j行的特征向量。
将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别设置为ReLU函数和Softmax函数,其中,在蛋白质数据集内,每一个蛋白质样本都由若干个节点组成,N则表示该数据集内所有样本的节点数中的最大值。
步骤2,生成蛋白质训练集。
随机选取至少5000个蛋白质样本组成训练集,每一个蛋白质样本均包含其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质分子的类别标签。
对训练集内的每个蛋白质分子进行建模,生成由节点和连接边组成的包含多边形结构和单链结构的图结构。
所述对训练集内的每个蛋白质分子进行建模的步骤如下:
第1步,将训练集内的每个蛋白质样本输入到计算机中,将蛋白质分子内的每个原子映射为以序号0开始的节点;
第2步,将每个蛋白质样本内的原子连接关系映射为节点的连接边;
第3步,将蛋白质分子的类别标签映射为以序号0开始的图标签;
第4步,将上述三步得到的节点、边和图标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
步骤3,利用粗化算法粗化图结构。
利用粗化算法的多边形优化算法,将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后,删除该多边形结构原有的内部连接边。
利用粗化算法的单链池化算法,将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后,在该单链结构的首尾节点间生成一条连接边。
步骤4,利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值。
所述正则化拉普拉斯矩阵计算公式如下:
其中,Le,r表示粗化后图结构的正则化拉普拉斯特征矩阵中的第e行第r列的元素值,:=表示赋值操作,vt和vm分别表示图结构中序号为t和m的节点,t的取值与e的取值对应相等,m的取值与r的取值对应相等,Dz、Dp和Dq分别表示图结构中序号为z、p和q节点的度,其中z和p的取值与e的取值对应相等,q的取值与r的取值对应相等,*表示相乘操作,t表示Ner(m)中节点的序号。
步骤5,训练自注意力神经网络。
将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中。
用梯度下降法,更新自注意力神经网络的权值直到损失函数收敛为止,得到训练好的自注意力神经网络。
步骤6,对无标签蛋白质样本进行识别。
将一个无标签待识别的蛋白质样本输入到自注意力神经网络中,输出一个类别特征向量,C表示该蛋白质样本可能属于的类别数量,该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率。
从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。
下面结合仿真实验对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel(R)Xeon(R)CPU E5-2650 v4,主频为2.20GHz,内存256GB。
本发明的仿真实验的软件平台为:Ubuntu 18.04操作系统和python 3.6。
本发明仿真实验所使用的蛋白质样本数据集为,MUTAG、PTC、PROTEINS、NCI1、NCI109、D&D和ENZYMES。
MUTAG数据集由诱变的芳香族和杂芳香族硝基化合物组成,它具有188种化合物和两个图形标记,分别表示它们是否具有诱变作用。由Y.Yu等人在“Graph classificationbased on sparse graph feature selection and extreme learning machine,Neurocomputing 261(2017)20–27”中生成了该数据集。
PTC是化学化合物的数据集,标明它们对雄性或雌性大鼠有致癌性。由S.Pan等人在“Task sensitive feature exploration and learning for multitask graphclassification,IEEE Transactions on Systems,Man,and Cybernetics 47(3)(2017)744–758”中生成了该数据集。
PROTEINS是一组蛋白质图。每个图有一个标签,以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中生成了该数据集。
NCI1和NCI109是化合物数据集,边缘表示两个原子之间的键。此外,每个图都有一个标签,指示它们是否可以延迟癌细胞系的生长。由S.Pan等人在“Cogboost:Boosting forfast cost-sensitive graph classification,IEEE Transactions on Knowledge andData Engineering 27(11)(2015)2933–2946”中生成了该数据集。
D&D是一个蛋白质结构数据集,其图形标签指示它们是否为酶。由P.D.Dobson等人在“Distinguishing enzyme structures from non-enzymes without alignments,J.Mol.Biol(2003)771–783”中生成了该数据集。
ENZYMES是一个蛋白质数据集。每个图都有一个标签,指出它所属的EC顶级类别。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中生成了该数据集。
2.仿真内容及其结果分析:
本发明仿真实验是采用本发明和八个现有技术的分类方法(DCNN,PSCN,DGCNN,GCAPS-CNN,LDP,SP,GK,WL)分别对输入的蛋白质样本数据集分类,获得分类结果图。
现有技术DCNN分类方法指的是,J.Atwood等人在“Diffusion-convolutionalneural networks,in:Advances in Neural Information Processing Systems,2016,pp.1993–2001”中提出的传播-卷积神经网络分类方法,简称DCNN。
现有技术PSCN分类方法指的是,M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings of the 33nd InternationalConference on Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法,简称PSCN。
现有技术DGCNN分类方法指的是,M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the 32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架,简称DGCNN。
现有技术GCAPS-CNN分类方法指的是,M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法,简称GCAPS-CNN。
现有技术LDP分类方法指的是,C.Cai等人在“Asimple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法,简称LDP。
现有技术SP分类方法指的是,K.M.Borgwardt等人在“Shortest-path kernels ongraphs,in:Proceedings of the 6th IEEE International Conference on DataMining,2006”中提出的基于最短路径的核方法,简称SP。
现有技术GK分类方法指的是,N.Shervashidze等人在“Efficient graphletkernels for large graph comparison,in:Proceedings of the TwelfthInternational Conference on Artificial Intelligence and Statistics,AISTATS2009,Clearwater Beach,Florida,USA,April 16-18,2009,2009,pp.488–495”中提出的一种高效的图比较方法,简称GK。
现有技术WL分类方法指的是,N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法,简称WL。
利用评价指标分类正确率分别对九种方法的分类结果进行评价,将所有计算结果绘制成表1。
表1中的Ours表示本发明的仿真实验结果。
结合表1可以看出,本发明的在第一个MUTAG数据集上达到了现有技术的平均水平,而在后7个数据集上均超过了现有技术,证明本发明可以得到更高蛋白质分类准确率。
表1九种方法的分类结果评价一览表
Claims (4)
1.一种基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,构建并训练一个自注意力神经网络,采用粗化算法对蛋白质样本建模生成的图结构进行粗化处理,该方法的具体步骤包括:
(1)构建自注意力神经网络:
(1a)搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层;
(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别设置为ReLU函数和Softmax函数,其中,在蛋白质数据集内,每一个蛋白质样本都由若干个节点组成,N则表示该数据集内所有样本的节点数中的最大值;
(2)生成蛋白质训练集:
(2a)随机选取至少5000个蛋白质样本组成训练集,每一个蛋白质样本均包含其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质分子的类别标签;
(2b)对训练集内的每个蛋白质分子进行建模,生成由节点和连接边组成的包含多边形结构和单链结构的图结构;
(3)利用粗化算法粗化图结构:
(3a)利用粗化算法的多边形优化算法,将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后,删除该多边形结构原有的内部连接边;
(3b)利用粗化算法的单链池化算法,将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后,在该单链结构的首尾节点间生成一条连接边;
(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;
(5)训练自注意力神经网络:
(5a)将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中;
(5b)用梯度下降法,更新自注意力神经网络的权值直到损失函数收敛为止,得到训练好的自注意力神经网络;
(6)对无标签蛋白质样本进行识别:
(6a)将一个无标签待识别的蛋白质样本输入到自注意力神经网络中,输出一个类别特征向量,C表示该蛋白质样本可能属于的类别数量,该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率;
(6b)从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。
2.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,步骤(1a)中所述第一图卷积网络层采用的自注意力公式如下:
3.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,步骤(2b)中所述对训练集内的每个蛋白质分子进行建模的步骤如下:
第一步,将训练集内的每个蛋白质样本输入到计算机中,将蛋白质分子内的每个原子映射为以序号0开始的节点;
第二步,将每个蛋白质样本内的原子连接关系映射为节点的连接边;
第三步,将蛋白质分子的类别标签映射为以序号0开始的图标签;
第四步,将上述三步得到的节点、边和图标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730960.9A CN111916144B (zh) | 2020-07-27 | 2020-07-27 | 基于自注意力神经网络和粗化算法的蛋白质分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730960.9A CN111916144B (zh) | 2020-07-27 | 2020-07-27 | 基于自注意力神经网络和粗化算法的蛋白质分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111916144A true CN111916144A (zh) | 2020-11-10 |
CN111916144B CN111916144B (zh) | 2024-02-09 |
Family
ID=73281749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010730960.9A Active CN111916144B (zh) | 2020-07-27 | 2020-07-27 | 基于自注意力神经网络和粗化算法的蛋白质分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111916144B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364983A (zh) * | 2020-11-12 | 2021-02-12 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN113066528A (zh) * | 2021-04-12 | 2021-07-02 | 山西大学 | 基于主动半监督图神经网络的蛋白质分类方法 |
CN113066537A (zh) * | 2021-04-19 | 2021-07-02 | 山西大学 | 基于图神经网络的化合物分类方法 |
CN113409893A (zh) * | 2021-06-25 | 2021-09-17 | 成都职业技术学院 | 一种基于图像卷积的分子特征提取及性能预测方法 |
CN117095743A (zh) * | 2023-10-17 | 2023-11-21 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019001070A1 (zh) * | 2017-06-28 | 2019-01-03 | 浙江大学 | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 |
CN109740560A (zh) * | 2019-01-11 | 2019-05-10 | 济南浪潮高新科技投资发展有限公司 | 基于卷积神经网络的人体细胞蛋白质自动识别方法及系统 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110889015A (zh) * | 2019-10-31 | 2020-03-17 | 天津工业大学 | 面向图数据的独立解耦卷积神经网络表征算法 |
-
2020
- 2020-07-27 CN CN202010730960.9A patent/CN111916144B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019001070A1 (zh) * | 2017-06-28 | 2019-01-03 | 浙江大学 | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109740560A (zh) * | 2019-01-11 | 2019-05-10 | 济南浪潮高新科技投资发展有限公司 | 基于卷积神经网络的人体细胞蛋白质自动识别方法及系统 |
CN110889015A (zh) * | 2019-10-31 | 2020-03-17 | 天津工业大学 | 面向图数据的独立解耦卷积神经网络表征算法 |
Non-Patent Citations (2)
Title |
---|
徐若易;李金龙;: "自我注意力机制中基于相对位置的句子表示方法", 小型微型计算机系统, no. 02 * |
王铭军;: "生物网络中标志物的模式识别研究方法", 学园, no. 24 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364983A (zh) * | 2020-11-12 | 2021-02-12 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN112364983B (zh) * | 2020-11-12 | 2024-03-22 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN113066528A (zh) * | 2021-04-12 | 2021-07-02 | 山西大学 | 基于主动半监督图神经网络的蛋白质分类方法 |
CN113066537A (zh) * | 2021-04-19 | 2021-07-02 | 山西大学 | 基于图神经网络的化合物分类方法 |
CN113066537B (zh) * | 2021-04-19 | 2022-04-08 | 山西大学 | 基于图神经网络的化合物分类方法 |
CN113409893A (zh) * | 2021-06-25 | 2021-09-17 | 成都职业技术学院 | 一种基于图像卷积的分子特征提取及性能预测方法 |
CN113409893B (zh) * | 2021-06-25 | 2022-05-31 | 成都职业技术学院 | 一种基于图像卷积的分子特征提取及性能预测方法 |
CN117095743A (zh) * | 2023-10-17 | 2023-11-21 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
CN117095743B (zh) * | 2023-10-17 | 2024-01-05 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111916144B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916144B (zh) | 基于自注意力神经网络和粗化算法的蛋白质分类方法 | |
US10963632B2 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
CN107424159B (zh) | 基于超像素边缘和全卷积网络的图像语义分割方法 | |
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN108052966A (zh) | 基于卷积神经网络的遥感图像场景自动提取和分类方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN113065594A (zh) | 一种基于北斗数据与遥感影像融合的路网提取方法及装置 | |
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN110728187A (zh) | 一种基于容错性深度学习的遥感影像场景分类方法 | |
CN112766170B (zh) | 基于簇类无人机图像的自适应分割检测方法及装置 | |
CN109582960B (zh) | 基于结构化关联语义嵌入的零示例学习方法 | |
CN110245683A (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN109657082A (zh) | 基于全卷积神经网络的遥感图像多标签检索方法及系统 | |
CN115249313A (zh) | 一种基于元模块融合增量学习的图像分类方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN113066528B (zh) | 基于主动半监督图神经网络的蛋白质分类方法 | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN114239083A (zh) | 一种基于图神经网络的高效状态寄存器识别方法 | |
CN113066537B (zh) | 基于图神经网络的化合物分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Yu Bin Inventor after: Zhang Yifan Inventor after: Zhang Chen Inventor after: Xie Yu Inventor after: Li Chunyi Inventor before: Yu Bin Inventor before: Zhang Yifan Inventor before: Zhang Chen Inventor before: Xie Yu Inventor before: Li Chunyi |
|
GR01 | Patent grant | ||
GR01 | Patent grant |