CN112331257A

CN112331257A - 一种基于图卷积神经网络的病毒-宿主相互作用预测方法

Info

Publication number: CN112331257A
Application number: CN202011154766.7A
Authority: CN
Inventors: 刘莘; 王飞; 张潇; 王亮; 耿伟; 朴雪; 杨婷; 吴川; 丁晖
Original assignee: Xuzhou Medical College
Current assignee: Xuzhou Medical College
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-05

Abstract

一种基于图卷积神经网络的病毒‑宿主相互作用预测方法，数据获取：从数据库中获取HCV和人类蛋白质相互作用的数据；数据表示：为每个蛋白序列创建PSSMs，得到蛋白质PSSM为L*20的PSSM打分矩阵，并得到20*20的矩阵，将其作为特征提取的输入；特征提取：对蛋白质的PSSM矩阵进行特征提取；模型搭建：采用2层GCN模型进行模型搭建；模型训练：利用五折交叉验证进行模型训练,随机初始化权重；模型预测：利用训练后得到的模型对测试数据集进行预测，检验算法的泛化能力。该方法不需要构造负数据集，避免假阴性数据的出现，同时考虑HCV‑宿主蛋白质相互作用的网络结构信息，提升预测效果。

Description

一种基于图卷积神经网络的病毒-宿主相互作用预测方法

技术领域

本发明属于病毒-宿主相互作用预测技术领域，具体涉及一种基于图卷积神经网络的病毒-宿主相互作用预测方法。

背景技术

蛋白质相互作用是指两个或者两个以上的蛋白质分子通过直接接触或者功能关联的方式形成蛋白质复合体，它可以起到维持生命活动功能的作用。蛋白质相互作用主要参与了人体中DNA的复制、转录过程，以及蛋白质的翻译、修饰、定位和疾病的治疗、预防等。例如，病毒可与特定的宿主蛋白质发生相互作用，而感染宿主细胞。病毒性疾病是由各种病毒引起的，每年夺去数百万人的生命。对于许多病毒性疾病，由于致病机制不明，病毒基因组突变率快，目前尚无有效的疫苗或治疗方法。因此，识别病毒与宿主蛋白之间的相互作用对于了解病毒感染的分子机制和识别抗病毒药物至关重要。

由于传统的实验方法昂贵且耗时，因此计算方法在该领域得到了越来越多的关注。近年来，随着病毒-宿主的相互作用数据的不断增加，出现了一些用于预测病毒-宿主相互作用的计算方法。基于计算方法的HCV-宿主蛋白质相互作用预测研究主要构建不同蛋白质特征表示方法和机器学习模型两个部分构成。

虽然目前基于计算的HCV-宿主蛋白相互作用模型取得了不错的成绩，然而这些方法仍存在亟待解决的问题。首先，负数据集的构造容易产生假阴性数据，影响预测的准确性；随着高通量测序技术的发展，HCV-宿主相互作用数据(正数据集)渐渐增加，然而非HCV-宿主相互作用数据(负数据集)仍然是未知的，一般在非相互作用数据集中任意选择等量的负数据集，这会使得负数据集中存在很多假阴性数据，影响预测准确性。其次，忽视HCV-宿主蛋白质相互作用的网络结构信息；目前的计算方法均仅考虑蛋白质的特征信息，没有考虑HCV-宿主蛋白质之间的网络结构信息，这也是影响预测效果的因素之一。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法，该方法不需要构造负数据集，避免假阴性数据的出现，同时考虑HCV-宿主蛋白质相互作用的网络结构信息，提升预测效果。

本发明提供一种基于图卷积神经网络的病毒-宿主相互作用预测方法，包括以下步骤：

S1：数据获取：从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据；

S2：数据表示：通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列，使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs，其中，将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3，通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵，并利用其转置矩阵和其进行相乘得到20*20的矩阵，将其作为特征提取的输入；

式中，L为蛋白质的序列长度，P_i,j表示在进化过程中，序列第i个位置被替换为第j种氨基酸所得到的分数；

S3：特征提取：利用二维主成分分析方法对蛋白质的PSSM矩阵进行特征提取；

A1：通过公式(2)训练数据的样本集；

{S_i∈R^20*20,i＝1,2,...,N} (2)；

式中，i表示样本中的第i个蛋白质，S_i表示当前第i个蛋白质经过转置相乘后得到的平均矩阵PSSM′＝PSSM^T*PSSM，

A2:通过公式(3)得到所有蛋白质的平均矩阵u；

A3:通过公式(4)得到所有样本的协方差矩阵G；

A4:通过公式(5)对协方差矩阵G进行特征分解；

GX_i＝λ_iX_i (5)；

A5:按照PCA的原理，选取其中最大一组特征值λ₁,λ₂,...,λ_n所对应的正交特征向量组X₁,X₂,...,X_P构成投影空间，并根据公式(6)将训练样本S_i在此投影空间进行投影得到样本投影Y_i；

Y_i＝S_iX_k (6)；

式中，k＝1,2,...,p；

S4：模型搭建：采用2层GCN模型进行模型搭建；

B1：构造拓扑图的结构矩阵A，A的大小为11*421；

B2：构造特征矩阵X，X的大小为432*72，其中432为拓扑图数据中的HCV蛋白质和人类蛋白质的数量，72为利用2DPCA对蛋白质的PSSM矩阵进行特征提取后的特征描述向量的维数；

B3：将特征矩阵X与图结构矩阵A作为图卷积神经挖网络的输入得到图卷积神经网络模型；

B4：在图卷积神经网络模型中,设中心点为i,根据公式(7)获得卷积算子

式中，h⁰＝X，

表示样本数据在第l层的特征；c_i,j为归一化因子；N_i为节点的邻居，包括其自身；R_i为节点i的类型，为HCV节点或者宿主蛋白质节点；

表示R_i类型节点的变换权重参数；f为采用的非线性函数为Relu；

S5：模型训练：利用五折交叉验证进行模型训练,随机初始化权重，将训练数据集划分为5部分，将其中的4部分作为训练集，另外的1部分作为测试集，重复进行模型训练五次得到图卷积神经网络模型，其中，每次模型训练选取的训练集不同；

S6：模型预测：利用训练后得到的模型对测试数据集进行预测，以检验算法的泛化能力。

作为一种优选，在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。

本方法不需要构造负数据集，避免不平衡数据集及假阴性数据的出现；因为传统的基于机器学习的HCV-宿主蛋白质相互作用网络的研究策略是将其作为二分类问题，然而大多数的机器学习方法是基于正负样本的比例近似这一假设而建立模型，而在实际应用中负数据集往往远大于正数据集，且负数据集中往往存在着大量未被识别的阳性数据，这就造成数据的不平衡现象以及假阴性数据的出现，这种情况常会给分类其的性能带来很大的影响。本方法还考虑了网络的结构信息，增强预测的准确性。因为图卷积神经网络不仅可以自动学习节点特征，还能学习节点与节点之间的关联信息，因此可以提升预测的准确性。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明提供了一种基于图卷积神经网络的病毒-宿主相互作用预测方法，包括以下步骤：

S1：数据获取：从存储病毒-宿主相互作用的数据库中获取HCV和人类蛋白质相互作用的数据；作为一种优选，在S1中的存储病毒-宿主相互作用的数据库为VirHostNet数据库。VirHostNet数据库是专门用于存储病毒-宿主相互作用的数据库，其中包含28,000多个病毒-宿主以及病毒-病毒相互作用数据。在VirHostNet中，发现了477个HCV与人类宿主蛋白质之间的相互作用数据，其中HCV蛋白质11个，人类宿主蛋白质421个。详情如表1所示：

表1：HCV-人类宿主蛋白相互作用数据

S2：数据表示：

位置特异性打分矩阵(position-specific scoring matrices,PSSM)存储了蛋白质序列的进化信息，用其对蛋白质进行编码后，将其应用于亚细胞定位、蛋白质结构预测等多个领域，取得不错的效果；

通过迭代PSI-BLAST搜索方法来发现和搜索序列有关的蛋白质序列，使用位置特异性迭代BLAST为每个蛋白序列创建PSSMs，其中，将代表E的临界值和最大迭代次数的PSI-BLAST参数h和j分别设为0.001和3，通过公式(1)得到蛋白质PSSM为L*20的PSSM打分矩阵，并利用其转置矩阵和其进行相乘得到20*20的矩阵，将其作为特征提取的输入；

因为蛋白质的长度往往均不相同，所以得到的PSSM矩阵大小不同，为了便于后续处理，将L*20的矩阵转置后与原矩阵相乘得到一个20*20的矩阵；

S3：特征提取：很多研究仅将蛋白质的PSSM矩阵直接向量化，容易造成信息丢失。利用二维主成分分析方法(Two-dimensional Principal Component Analysis,2DPCA)对蛋白质的PSSM矩阵进行特征提取；2DPCA通过计算训练样本的协方差矩阵，能够获取更多的信息，该方法在图像处理等领域取得良好的效果。因此通过2DPCA对蛋白质的PSSM矩阵进行特征提取，能够更好的提取特征。

对于二维矩阵数据X，其矩阵大小为m*n,令其投影空间为U∈R^n×p,其中列向量均为正交向量，且n≥p。然后将矩阵X投影到U空间，可得到m*n的矩阵：

Y＝XU；

利用投影矩阵Y的离散度J(U)作为判定依据：

J(U)＝tr(S_u)；

其中S_u是投影矩阵Y的协方差矩阵，tr(S_u)为S_u的离散度，且

S_u＝U^TE{[X-E(X)]^T[X-E(X)]}U；

对于矩阵X为而言，其协方差矩阵G可以定义为：G＝E{[X-E(X)]^T[X-E(X)]}；

则G是一个矩阵大小为n*n的非负正定矩阵。如果数据集中包含M个矩阵数据，记作x_i,i＝1,2,...,M,那么平均矩阵u可以表示为：

协方差矩阵G可以写为：

对应的J(U)可以写为：

J(U)＝tr(U^TGU)；

当函数取得较大值时，U中相应的列向量与G中对应的特征向量一致，可选择前P个特征向量构成特征空间U：

U＝(u₁,u₂,...,u_p)＝argmax[J(u)]；

基于以上的理论推导，下面详细叙述2DPCA算法的特征提取方法。