CN112331257A - 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 - Google Patents
一种基于图卷积神经网络的病毒-宿主相互作用预测方法 Download PDFInfo
- Publication number
- CN112331257A CN112331257A CN202011154766.7A CN202011154766A CN112331257A CN 112331257 A CN112331257 A CN 112331257A CN 202011154766 A CN202011154766 A CN 202011154766A CN 112331257 A CN112331257 A CN 112331257A
- Authority
- CN
- China
- Prior art keywords
- matrix
- model
- protein
- training
- pssm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于图卷积神经网络的病毒‑宿主相互作用预测方法,数据获取:从数据库中获取HCV和人类蛋白质相互作用的数据;数据表示:为每个蛋白序列创建PSSMs,得到蛋白质PSSM为L*20的PSSM打分矩阵,并得到20*20的矩阵,将其作为特征提取的输入;特征提取:对蛋白质的PSSM矩阵进行特征提取;模型搭建:采用2层GCN模型进行模型搭建;模型训练:利用五折交叉验证进行模型训练,随机初始化权重;模型预测:利用训练后得到的模型对测试数据集进行预测,检验算法的泛化能力。该方法不需要构造负数据集,避免假阴性数据的出现,同时考虑HCV‑宿主蛋白质相互作用的网络结构信息,提升预测效果。
Description
技术领域
本发明属于病毒-宿主相互作用预测技术领域,具体涉及一种基于图卷积神经网络的病毒-宿主相互作用预测方法。
背景技术
蛋白质相互作用是指两个或者两个以上的蛋白质分子通过直接接触或者功能关联的方式形成蛋白质复合体,它可以起到维持生命活动功能的作用。蛋白质相互作用主要参与了人体中DNA的复制、转录过程,以及蛋白质的翻译、修饰、定位和疾病的治疗、预防等。例如,病毒可与特定的宿主蛋白质发生相互作用,而感染宿主细胞。病毒性疾病是由各种病毒引起的,每年夺去数百万人的生命。对于许多病毒性疾病,由于致病机制不明,病毒基因组突变率快,目前尚无有效的疫苗或治疗方法。因此,识别病毒与宿主蛋白之间的相互作用对于了解病毒感染的分子机制和识别抗病毒药物至关重要。
由于传统的实验方法昂贵且耗时,因此计算方法在该领域得到了越来越多的关注。近年来,随着病毒-宿主的相互作用数据的不断增加,出现了一些用于预测病毒-宿主相互作用的计算方法。基于计算方法的HCV-宿主蛋白质相互作用预测研究主要构建不同蛋白质特征表示方法和机器学习模型两个部分构成。
虽然目前基于计算的HCV-宿主蛋白相互作用模型取得了不错的成绩,然而这些方法仍存在亟待解决的问题。首先,负数据集的构造容易产生假阴性数据,影响预测的准确性;随着高通量测序技术的发展,HCV-宿主相互作用数据(正数据集)渐渐增加,然而非HCV-宿主相互作用数据(负数据集)仍然是未知的,一般在非相互作用数据集中任意选择等量的负数据集,这会使得负数据集中存在很多假阴性数据,影响预测准确性。其次,忽视HCV-宿主蛋白质相互作用的网络结构信息;目前的计算方法均仅考虑蛋白质的特征信息,没有考虑HCV-宿主蛋白质之间的网络结构信息,这也是影响预测效果的因素之一。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法,该方法不需要构造负数据集,避免假阴性数据的出现,同时考虑HCV-宿主蛋白质相互作用的网络结构信息,提升预测效果。
本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;
S2:数据表示:通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:利用二维主成分分析方法对蛋白质的PSSM矩阵进行特征提取;
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
A3:通过公式(4)得到所有样本的协方差矩阵G;
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ1,λ2,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi;
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:采用2层GCN模型进行模型搭建;
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
式中,h0=X,表示样本数据在第l层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。
作为一种优选,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。
本方法不需要构造负数据集,避免不平衡数据集及假阴性数据的出现;因为传统的基于机器学习的HCV-宿主蛋白质相互作用网络的研究策略是将其作为二分类问题,然而大多数的机器学习方法是基于正负样本的比例近似这一假设而建立模型,而在实际应用中负数据集往往远大于正数据集,且负数据集中往往存在着大量未被识别的阳性数据,这就造成数据的不平衡现象以及假阴性数据的出现,这种情况常会给分类其的性能带来很大的影响。本方法还考虑了网络的结构信息,增强预测的准确性。因为图卷积神经网络不仅可以自动学习节点特征,还能学习节点与节点之间的关联信息,因此可以提升预测的准确性。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明提供了一种基于图卷积神经网络的病毒-宿主相互作用预测方法,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;作为一种优选,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。VirHostNet数据库是专门用于存储病毒-宿主相互作用的数据库,其中包含28,000多个病毒-宿主以及病毒-病毒相互作用数据。在VirHostNet中,发现了477个HCV与人类宿主蛋白质之间的相互作用数据,其中HCV蛋白质11个,人类宿主蛋白质421个。详情如表1所示:
表1:HCV-人类宿主蛋白相互作用数据
S2:数据表示:
位置特异性打分矩阵(position-specific scoring matrices,PSSM)存储了蛋白质序列的进化信息,用其对蛋白质进行编码后,将其应用于亚细胞定位、蛋白质结构预测等多个领域,取得不错的效果;
通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
因为蛋白质的长度往往均不相同,所以得到的PSSM矩阵大小不同,为了便于后续处理,将L*20的矩阵转置后与原矩阵相乘得到一个20*20的矩阵;
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:很多研究仅将蛋白质的PSSM矩阵直接向量化,容易造成信息丢失。利用二维主成分分析方法(Two-dimensional Principal Component Analysis,2DPCA)对蛋白质的PSSM矩阵进行特征提取;2DPCA通过计算训练样本的协方差矩阵,能够获取更多的信息,该方法在图像处理等领域取得良好的效果。因此通过2DPCA对蛋白质的PSSM矩阵进行特征提取,能够更好的提取特征。
对于二维矩阵数据X,其矩阵大小为m*n,令其投影空间为U∈Rn×p,其中列向量均为正交向量,且n≥p。然后将矩阵X投影到U空间,可得到m*n的矩阵:
Y=XU;
利用投影矩阵Y的离散度J(U)作为判定依据:
J(U)=tr(Su);
其中Su是投影矩阵Y的协方差矩阵,tr(Su)为Su的离散度,且
Su=UTE{[X-E(X)]T[X-E(X)]}U;
对于矩阵X为而言,其协方差矩阵G可以定义为:G=E{[X-E(X)]T[X-E(X)]};
则G是一个矩阵大小为n*n的非负正定矩阵。如果数据集中包含M个矩阵数据,记作xi,i=1,2,...,M,那么平均矩阵u可以表示为:
协方差矩阵G可以写为:
对应的J(U)可以写为:
J(U)=tr(UTGU);
当函数取得较大值时,U中相应的列向量与G中对应的特征向量一致,可选择前P个特征向量构成特征空间U:
U=(u1,u2,...,up)=argmax[J(u)];
基于以上的理论推导,下面详细叙述2DPCA算法的特征提取方法。
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
A3:通过公式(4)得到所有样本的协方差矩阵G;
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ1,λ2,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi;
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:由于图卷积神经网络综合考虑数据的特征和网络结构,一般仅需要较浅的网络即可实现较好的预测效果,因此采用2层GCN模型进行模型搭建;即如图1所示卷积-池化-卷积-池化-全连接。
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
式中,h0=X,表示样本数据在第l层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
与传统的神经网络不同,输入元素不仅包含了自身的特征,同时还包含给定图中相邻定点的特征。
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。
Claims (2)
1.一种基于图卷积神经网络的病毒-宿主相互作用预测方法,其特征在于,包括以下步骤:
S1:数据获取:从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据;
S2:数据表示:通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列,使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs,其中,将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3,通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵,并利用其转置矩阵和其进行相乘得到20*20的矩阵,将其作为特征提取的输入;
式中,L为蛋白质的序列长度,Pi,j表示在进化过程中,序列第i个位置被替换为第j种氨基酸所得到的分数;
S3:特征提取:利用二维主成分分析方法对蛋白质的PSSM矩阵进行特征提取;
A1:通过公式(2)训练数据的样本集;
{Si∈R20*20,i=1,2,...,N} (2);
式中,i表示样本中的第i个蛋白质,Si表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′=PSSMT*PSSM,
A2:通过公式(3)得到所有蛋白质的平均矩阵u;
A3:通过公式(4)得到所有样本的协方差矩阵G;
A4:通过公式(5)对协方差矩阵G进行特征分解;
GXi=λiXi (5);
A5:按照PCA的原理,选取其中最大一组特征值λ1,λ2,...,λn所对应的正交特征向量组X1,X2,...,XP构成投影空间,并根据公式(6)将训练样本Si在此投影空间进行投影得到样本投影Yi;
Yi=SiXk (6);
式中,k=1,2,...,p;
S4:模型搭建:采用2层GCN模型进行模型搭建;
B1:构造拓扑图的结构矩阵A,A的大小为11*421;
B2:构造特征矩阵X,X的大小为432*72,其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量,72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数;
B3:将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型;
式中,h0=X,表示样本数据在第1层的特征;ci,j为归一化因子;Ni为节点的邻居,包括其自身;Ri为节点i的类型,为HCV节点或者宿主蛋白质节点;表示Ri类型节点的变换权重参数;f为采用的非线性函数为Relu;
S5:模型训练:利用五折交叉验证进行模型训练,随机初始化权重,将训练数据集划分为5部分,将其中的4部分作为训练集,另外的1部分作为测试集,重复进行模型训练五次得到图卷积神经网络模型,其中,每次模型训练选取的训练集不同;
S6:模型预测:利用训练后得到的模型对测试数据集进行预测,以检验算法的泛化能力。
2.根据权利要求1所述的一种基于图卷积神经网络的病毒-宿主相互作用预测方法,其特征在于,在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154766.7A CN112331257A (zh) | 2020-10-26 | 2020-10-26 | 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154766.7A CN112331257A (zh) | 2020-10-26 | 2020-10-26 | 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112331257A true CN112331257A (zh) | 2021-02-05 |
Family
ID=74311591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011154766.7A Withdrawn CN112331257A (zh) | 2020-10-26 | 2020-10-26 | 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331257A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192559A (zh) * | 2021-05-08 | 2021-07-30 | 中山大学 | 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 |
CN113539381A (zh) * | 2021-07-16 | 2021-10-22 | 中国海洋大学 | 一种基于残基相互作用及pen的分子动力学结果分析方法 |
CN114664377A (zh) * | 2022-02-25 | 2022-06-24 | 中国地质大学(武汉) | 一种基于图表示学习的关键蛋白质识别方法和装置 |
CN115035954A (zh) * | 2022-06-10 | 2022-09-09 | 辽宁大学 | 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法 |
CN115035954B (zh) * | 2022-06-10 | 2024-11-08 | 辽宁大学 | 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法 |
-
2020
- 2020-10-26 CN CN202011154766.7A patent/CN112331257A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192559A (zh) * | 2021-05-08 | 2021-07-30 | 中山大学 | 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 |
CN113192559B (zh) * | 2021-05-08 | 2023-09-26 | 中山大学 | 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 |
CN113539381A (zh) * | 2021-07-16 | 2021-10-22 | 中国海洋大学 | 一种基于残基相互作用及pen的分子动力学结果分析方法 |
CN113539381B (zh) * | 2021-07-16 | 2023-09-05 | 中国海洋大学 | 一种基于残基相互作用及pen的分子动力学结果分析方法 |
CN114664377A (zh) * | 2022-02-25 | 2022-06-24 | 中国地质大学(武汉) | 一种基于图表示学习的关键蛋白质识别方法和装置 |
CN115035954A (zh) * | 2022-06-10 | 2022-09-09 | 辽宁大学 | 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法 |
CN115035954B (zh) * | 2022-06-10 | 2024-11-08 | 辽宁大学 | 一种融合序列及网络嵌入的病毒宿主蛋白-蛋白相互作用预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331257A (zh) | 一种基于图卷积神经网络的病毒-宿主相互作用预测方法 | |
Zhang et al. | Random forests with ensemble of feature spaces | |
Matsubara et al. | Convolutional neural network approach to lung cancer classification integrating protein interaction network and gene expression profiles | |
Tu et al. | A novel graph-based k-means for nonlinear manifold clustering and representative selection | |
Lin et al. | Efficient classification of hot spots and hub protein interfaces by recursive feature elimination and gradient boosting | |
Mao et al. | Maximizing diversity by transformed ensemble learning | |
CN110852168A (zh) | 基于神经架构搜索的行人重识别模型构建方法及装置 | |
Whata et al. | Deep learning for SARS COV-2 genome sequences | |
Sikandar et al. | Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis | |
CN107506617B (zh) | 半局部社交信息miRNA-疾病关联性预测方法 | |
CN110705636B (zh) | 一种基于多样本字典学习和局部约束编码的图像分类方法 | |
Chang et al. | Cross-domain kernel induction for transfer learning | |
CN106202999A (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
Zhao et al. | A novel approach to extracting features from motif content and protein composition for protein sequence classification | |
CN112489723B (zh) | 基于局部进化信息的dna结合蛋白预测方法 | |
CN111563535A (zh) | 一种基于秩为r的离散非负矩阵分解聚类方法 | |
Ploenzke et al. | Interpretable convolution methods for learning genomic sequence motifs | |
Patel et al. | Protein secondary structure prediction using support vector machines (SVMs) | |
CN107273842B (zh) | 基于csjoga算法的选择性集成人脸识别方法 | |
Halkias et al. | Sparse penalty in deep belief networks: using the mixed norm constraint | |
Gao et al. | AiProAnnotator: Low-rank Approximation with network side information for high-performance, large-scale human Protein abnormality Annotator | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
Bustamam et al. | Analysis of protein-protein interaction network using Markov clustering with pigeon-inspired optimization algorithm in HIV (human immunodeficiency virus) | |
CN113591930A (zh) | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 | |
Taju et al. | Using deep learning with position specific scoring matrices to identify efflux proteins in membrane and transport proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210205 |