CN112331257A - 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 - Google Patents

一种基于图卷积神经网络的病毒-宿主相互作用预测方法 Download PDF

Info

Publication number
CN112331257A
CN112331257A CN202011154766.7A CN202011154766A CN112331257A CN 112331257 A CN112331257 A CN 112331257A CN 202011154766 A CN202011154766 A CN 202011154766A CN 112331257 A CN112331257 A CN 112331257A
Authority
CN
China
Prior art keywords
matrix
model
protein
training
pssm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011154766.7A
Other languages
English (en)
Inventor
刘莘
王飞
张潇
王亮
耿伟
朴雪
杨婷
吴川
丁晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202011154766.7A priority Critical patent/CN112331257A/zh
Publication of CN112331257A publication Critical patent/CN112331257A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于图卷积神经网络的病毒‑宿主相互作用预测方法,数据获取:从数据库中获取HCV和人类蛋白质相互作用的数据;数据表示:为每个蛋白序列创建PSSMs,得到蛋白质PSSM为L*20的PSSM打分矩阵,并得到20*20的矩阵,将其作为特征提取的输入;特征提取:对蛋白质的PSSM矩阵进行特征提取;模型搭建:采用2层GCN模型进行模型搭建;模型训练:利用五折交叉验证进行模型训练,随机初始化权重;模型预测:利用训练后得到的模型对测试数据集进行预测,检验算法的泛化能力。该方法不需要构造负数据集,避免假阴性数据的出现,同时考虑HCV‑宿主蛋白质相互作用的网络结构信息,提升预测效果。

Description

一种基于图卷积神经网络的病毒-宿主相互作用预测方法
技术领域
本发明属于病毒-宿主相互作用预测技术领域,具体涉及一种基于图卷积神经网络的病毒-宿主相互作用预测方法。
背景技术
蛋白质相互作用是指两个或者两个以上的蛋白质分子通过直接接触或者功能关联的方式形成蛋白质复合体,它可以起到维持生命活动功能的作用。蛋白质相互作用主要参与了人体中DNA的复制、转录过程,以及蛋白质的翻译、修饰、定位和疾病的治疗、预防等。例如,病毒可与特定的宿主蛋白质发生相互作用,而感染宿主细胞。病毒性疾病是由各种病毒引起的,每年夺去数百万人的生命。对于许多病毒性疾病,由于致病机制不明,病毒基因组突变率快,目前尚无有效的疫苗或治疗方法。因此,识别病毒与宿主蛋白之间的相互作用对于了解病毒感染的分子机制和识别抗病毒药物至关重要。
由于传统的实验方法昂贵且耗时,因此计算方法在该领域得到了越来越多的关注。近年来,随着病毒-宿主的相互作用数据的不断增加,出现了一些用于预测病毒-宿主相互作用的计算方法。基于计算方法的HCV-宿主蛋白质相互作用预测研究主要构建不同蛋白质特征表示方法和机器学习模型两个部分构成。
虽然目前基于计算的HCV-宿主蛋白相互作用模型取得了不错的成绩,然而这些方法仍存在亟待解决的问题。首先,负数据集的构造容易产生假阴性数据,影响预测的准确性;随着高通量测序技术的发展,HCV-宿主相互作用数据(正数据集)渐渐增加,然而非HCV-宿主相互作用数据(负数据集)仍然是未知的,一般在非相互作用数据集中任意选择等量的负数据集,这会使得负数据集中存在很多假阴性数据,影响预测准确性。其次,忽视HCV-宿主蛋白质相互作用的网络结构信息;目前的计算方法均仅考虑蛋白质的特征信息,没有考虑HCV-宿主蛋白质之间的网络结构信息,这也是影响预测效果的因素之一。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法,该方法不需要构造负数据集,避免假阴性数据的出现,同时考虑HCV-宿主蛋白质相互作用的网络结构信息,提升预测效果。
本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;
S2:数据表示:通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
Figure BDA0002742416600000021
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:利用二维主成分分析方法对蛋白质的PSSM矩阵进行特征提取;
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
Figure BDA0002742416600000022
A3:通过公式(4)得到所有样本的协方差矩阵G;
Figure BDA0002742416600000023
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ12,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:采用2层GCN模型进行模型搭建;
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
B4:在图卷积神经网络模型中,设中心点为i,根据公式(7)获得卷积算子
Figure BDA0002742416600000031
Figure BDA0002742416600000032
式中,h0=X,
Figure BDA0002742416600000033
表示样本数据在第l层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;
Figure BDA0002742416600000034
表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。
作为一种优选,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。
本方法不需要构造负数据集,避免不平衡数据集及假阴性数据的出现;因为传统的基于机器学习的HCV-宿主蛋白质相互作用网络的研究策略是将其作为二分类问题,然而大多数的机器学习方法是基于正负样本的比例近似这一假设而建立模型,而在实际应用中负数据集往往远大于正数据集,且负数据集中往往存在着大量未被识别的阳性数据,这就造成数据的不平衡现象以及假阴性数据的出现,这种情况常会给分类其的性能带来很大的影响。本方法还考虑了网络的结构信息,增强预测的准确性。因为图卷积神经网络不仅可以自动学习节点特征,还能学习节点与节点之间的关联信息,因此可以提升预测的准确性。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明提供了一种基于图卷积神经网络的病毒-宿主相互作用预测方法,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;作为一种优选,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。VirHostNet数据库是专门用于存储病毒-宿主相互作用的数据库,其中包含28,000多个病毒-宿主以及病毒-病毒相互作用数据。在VirHostNet中,发现了477个HCV与人类宿主蛋白质之间的相互作用数据,其中HCV蛋白质11个,人类宿主蛋白质421个。详情如表1所示:
表1:HCV-人类宿主蛋白相互作用数据
Figure BDA0002742416600000041
Figure BDA0002742416600000051
S2:数据表示:
位置特异性打分矩阵(position-specific scoring matrices,PSSM)存储了蛋白质序列的进化信息,用其对蛋白质进行编码后,将其应用于亚细胞定位、蛋白质结构预测等多个领域,取得不错的效果;
通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
因为蛋白质的长度往往均不相同,所以得到的PSSM矩阵大小不同,为了便于后续处理,将L*20的矩阵转置后与原矩阵相乘得到一个20*20的矩阵;
Figure BDA0002742416600000052
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:很多研究仅将蛋白质的PSSM矩阵直接向量化,容易造成信息丢失。利用二维主成分分析方法(Two-dimensional Principal Component Analysis,2DPCA)对蛋白质的PSSM矩阵进行特征提取;2DPCA通过计算训练样本的协方差矩阵,能够获取更多的信息,该方法在图像处理等领域取得良好的效果。因此通过2DPCA对蛋白质的PSSM矩阵进行特征提取,能够更好的提取特征。
对于二维矩阵数据X,其矩阵大小为m*n,令其投影空间为U∈Rn×p,其中列向量均为正交向量,且n≥p。然后将矩阵X投影到U空间,可得到m*n的矩阵:
Y=XU;
利用投影矩阵Y的离散度J(U)作为判定依据:
J(U)=tr(Su);
其中Su是投影矩阵Y的协方差矩阵,tr(Su)为Su的离散度,且
Su=UTE{[X-E(X)]T[X-E(X)]}U;
对于矩阵X为而言,其协方差矩阵G可以定义为:G=E{[X-E(X)]T[X-E(X)]};
则G是一个矩阵大小为n*n的非负正定矩阵。如果数据集中包含M个矩阵数据,记作xi,i=1,2,...,M,那么平均矩阵u可以表示为:
Figure BDA0002742416600000061
协方差矩阵G可以写为:
Figure BDA0002742416600000062
对应的J(U)可以写为:
J(U)=tr(UTGU);
当函数取得较大值时,U中相应的列向量与G中对应的特征向量一致,可选择前P个特征向量构成特征空间U:
U=(u1,u2,...,up)=argmax[J(u)];
Figure BDA0002742416600000063
基于以上的理论推导,下面详细叙述2DPCA算法的特征提取方法。
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
Figure BDA0002742416600000071
A3:通过公式(4)得到所有样本的协方差矩阵G;
Figure BDA0002742416600000072
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ12,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:由于图卷积神经网络综合考虑数据的特征和网络结构,一般仅需要较浅的网络即可实现较好的预测效果,因此采用2层GCN模型进行模型搭建;即如图1所示卷积-池化-卷积-池化-全连接。
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
B4:在图卷积神经网络模型中,设中心点为i,根据公式(7)获得卷积算子
Figure BDA0002742416600000073
Figure BDA0002742416600000074
式中,h0=X,
Figure BDA0002742416600000075
表示样本数据在第l层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;
Figure BDA0002742416600000076
表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
与传统的神经网络不同,输入元素不仅包含了自身的特征,同时还包含给定图中相邻定点的特征。
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。

Claims (2)

1.一种基于图卷积神经网络的病毒-宿主相互作用预测方法,其特征在于,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;
S2:数据表示:通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
Figure FDA0002742416590000011
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:利用二维主成分分析方法对蛋白质的PSSM矩阵进行特征提取;
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
Figure FDA0002742416590000012
A3:通过公式(4)得到所有样本的协方差矩阵G;
Figure FDA0002742416590000013
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ1,λ2,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:采用2层GCN模型进行模型搭建;
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
B4:在图卷积神经网络模型中,设中心点为i,根据公式(7)获得卷积算子
Figure FDA0002742416590000021
Figure FDA0002742416590000022
式中,h0=X,
Figure FDA0002742416590000023
表示样本数据在第1层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;
Figure FDA0002742416590000024
表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。
2.根据权利要求1所述的一种基于图卷积神经网络的病毒-宿主相互作用预测方法,其特征在于,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。
CN202011154766.7A 2020-10-26 2020-10-26 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 Withdrawn CN112331257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154766.7A CN112331257A (zh) 2020-10-26 2020-10-26 一种基于图卷积神经网络的病毒-宿主相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154766.7A CN112331257A (zh) 2020-10-26 2020-10-26 一种基于图卷积神经网络的病毒-宿主相互作用预测方法

Publications (1)

Publication Number Publication Date
CN112331257A true CN112331257A (zh) 2021-02-05

Family

ID=74311591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154766.7A Withdrawn CN112331257A (zh) 2020-10-26 2020-10-26 一种基于图卷积神经网络的病毒-宿主相互作用预测方法

Country Status (1)

Country Link
CN (1) CN112331257A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113539381A (zh) * 2021-07-16 2021-10-22 中国海洋大学 一种基于残基相互作用及pen的分子动力学结果分析方法
CN114664377A (zh) * 2022-02-25 2022-06-24 中国地质大学(武汉) 一种基于图表示学习的关键蛋白质识别方法和装置
CN115035954A (zh) * 2022-06-10 2022-09-09 辽宁大学 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法
CN115035954B (zh) * 2022-06-10 2024-11-08 辽宁大学 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113192559B (zh) * 2021-05-08 2023-09-26 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113539381A (zh) * 2021-07-16 2021-10-22 中国海洋大学 一种基于残基相互作用及pen的分子动力学结果分析方法
CN113539381B (zh) * 2021-07-16 2023-09-05 中国海洋大学 一种基于残基相互作用及pen的分子动力学结果分析方法
CN114664377A (zh) * 2022-02-25 2022-06-24 中国地质大学(武汉) 一种基于图表示学习的关键蛋白质识别方法和装置
CN115035954A (zh) * 2022-06-10 2022-09-09 辽宁大学 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法
CN115035954B (zh) * 2022-06-10 2024-11-08 辽宁大学 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法

Similar Documents

Publication Publication Date Title
CN112331257A (zh) 一种基于图卷积神经网络的病毒-宿主相互作用预测方法
Zhang et al. Random forests with ensemble of feature spaces
Matsubara et al. Convolutional neural network approach to lung cancer classification integrating protein interaction network and gene expression profiles
Tu et al. A novel graph-based k-means for nonlinear manifold clustering and representative selection
Lin et al. Efficient classification of hot spots and hub protein interfaces by recursive feature elimination and gradient boosting
Mao et al. Maximizing diversity by transformed ensemble learning
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
Whata et al. Deep learning for SARS COV-2 genome sequences
Sikandar et al. Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis
CN107506617B (zh) 半局部社交信息miRNA-疾病关联性预测方法
CN110705636B (zh) 一种基于多样本字典学习和局部约束编码的图像分类方法
Chang et al. Cross-domain kernel induction for transfer learning
CN106202999A (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
Zhao et al. A novel approach to extracting features from motif content and protein composition for protein sequence classification
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN111563535A (zh) 一种基于秩为r的离散非负矩阵分解聚类方法
Ploenzke et al. Interpretable convolution methods for learning genomic sequence motifs
Patel et al. Protein secondary structure prediction using support vector machines (SVMs)
CN107273842B (zh) 基于csjoga算法的选择性集成人脸识别方法
Halkias et al. Sparse penalty in deep belief networks: using the mixed norm constraint
Gao et al. AiProAnnotator: Low-rank Approximation with network side information for high-performance, large-scale human Protein abnormality Annotator
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
Bustamam et al. Analysis of protein-protein interaction network using Markov clustering with pigeon-inspired optimization algorithm in HIV (human immunodeficiency virus)
CN113591930A (zh) 一种基于网络融合与图嵌入的病毒-宿主关联预测方法
Taju et al. Using deep learning with position specific scoring matrices to identify efflux proteins in membrane and transport proteins

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210205