CN110853702B

CN110853702B - 一种基于空间结构的蛋白质相互作用预测方法

Info

Publication number: CN110853702B
Application number: CN201910979313.9A
Authority: CN
Inventors: 张利达; 雷雨; 洪剑伟; 郑存俭; 赵佳薇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2022-05-24
Anticipated expiration: 2039-10-15
Also published as: CN110853702A

Abstract

本发明涉及一种基于空间结构的蛋白质相互作用预测方法，该方法包括如下步骤：(1)采集蛋白质三维空间结构标准数据；(2)构建蛋白质相互作用正、负样本数据集；(3)提取正、负样本数据集中的蛋白质三维空间结构标准数据的结构矩阵；(4)构建用于蛋白质相互作用预测的深度学习模型；(5)将正、负样本集中的结构矩阵输入至深度学习模型，训练深度学习模型；(6)获取目标蛋白质三维空间结构数据；(7)提取目标蛋白质三维空间结构数据的结构矩阵；(8)深度学习模型预测得到目标蛋白质相互作用的概率。与现有技术相比，本发明蛋白质三维空间结构数据能够提高模型对蛋白质相互作用的识别能力，大大提高蛋白质相互作用的预测准确性。

Description

一种基于空间结构的蛋白质相互作用预测方法

技术领域

本发明涉及一种蛋白质相互作用预测方法，尤其是涉及一种基于空间结构的蛋白质相互作用预测方法。

背景技术

蛋白质之间的相互作用是蛋白质行使功能的基础，蛋白质相互作用参与了生物体几乎所有的生命活动，在各种生理生化过程中都发挥着重要作用。目前研究蛋白质相互作用的实验方法，如串联亲和纯化、酵母双杂交和蛋白质芯片技术等方法费时费力，花费昂贵，且具较高的假阳性率等缺点。因此，基于计算方法研究蛋白质相互作用日趋受到关注。随着基因组测序成本的不断降低，各组学数据激增，为综合利用生物大数据进行蛋白质相互作用预测提供了丰富的数据资源。

低温冷冻电镜、X射线晶体衍射、多维核磁共振等结构生物学实验技术测得了部分蛋白质的三维结构。目前蛋白质结构数据库收录了超过15万个蛋白质三维结构，其多集中在人类、小鼠、酿酒酵母以及大肠杆菌等模式生物。但由于蛋白质三级结构的以及结构域的保守性，如蛋白质序列一级结构具有相似性，那么其三级结构具有高度相似性。蛋白质三维结构的保守性促成了以数据库中的已知结构为模板的同源建模(HomologyModeling)方法的发展，该方法是目前应用最广泛的蛋白质三维结构预测方法。随着数据库中的已知结构的蛋白质数量的不断增加，使得越来越多的蛋白质可通过同源建模方法获得精确的预测结构。同源建模得到的蛋白质三维结构数据能够成为预测蛋白质相互作用的重要数据支撑。

机器学习技术(如支持向量机、随机森林和朴素贝叶斯)在面对生物数据时，需要人工设计特征提取器，用来将原始的生物数据转化成统一的向量或矩阵形式，这要求设计者拥有高超的结构生物学知识和优秀的算法编译能力。深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习通过非监督式学习或半监督式学习来获取特征，而不需要通过人工来获取特征，在处理复杂的生物学数据上具有优势。目前深度学习已成功应用于语音识别、记忆网络、计算机视觉、自然语言处理等其他领域。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于空间结构的蛋白质相互作用预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于空间结构的蛋白质相互作用预测方法，该方法包括如下步骤：

(1)采集蛋白质三维空间结构标准数据；

(2)利用三维空间结构标准数据构建蛋白质相互作用正、负样本数据集；

(3)提取正、负样本数据集中的蛋白质三维空间结构标准数据的结构矩阵；

(4)构建用于蛋白质相互作用预测的深度学习模型；

(5)将正、负样本集中的结构矩阵输入至深度学习模型，训练深度学习模型；

(6)对目标蛋白质序列进行同源建模获取目标蛋白质三维空间结构数据；

(7)提取目标蛋白质三维空间结构数据的结构矩阵；

(8)将目标蛋白质的结构矩阵输入至训练好的深度学习模型预测得到目标蛋白质相互作用的概率。

优选地，步骤(1)中蛋白质三维空间结构标准数据为PDB数据库中的原始蛋白质亚基-蛋白质亚基复合体结构数据。

优选地，步骤(2)具体为：

将PDB数据库中的蛋白质亚基复合体拆分成两两互作的蛋白质亚基对，形成正样本数据集；

将所有拆分的蛋白质亚基随机组合构成非互作蛋白质亚基对，形成负样本数据集，且负样本数据集中的数据满足：1)负样本数据不存在于正样本数据集中，2) 负样本蛋白质对不同时存在于同一蛋白质复合体。

优选地，步骤(3)和步骤(7)中结构矩阵包括三个，分别为X-Y矩阵、X-Z 矩阵和Y-Z矩阵。

优选地，结构矩阵通过如下方式得到：

(a)对氨基酸进行数字编码，每个氨基酸对应一个自然数编码；

(b)针对每个蛋白质，从蛋白质三维空间结构标准数据中提取每个氨基酸的三维坐标(x,y,z)，x、y、z对应为X、Y、Z坐标值；

(c)对氨基酸的X、Y、Z坐标值进行四舍五入取整得到(x′,y′,z′)，x′、y′、 z′对应为x、y、z的四舍五入取整值，进而得到该氨基酸的X-Y矩阵坐标点(x′,y′)、 X-Z矩阵坐标点(x′,z′)和Y-Z矩阵坐标点(y′,z′)；

(d)对蛋白质中的氨基酸分别在X-Y矩阵坐标点、X-Z矩阵坐标点和Y-Z矩阵坐标点位置处赋值对应的氨基酸自然数编码得到X-Y矩阵、X-Z矩阵和Y-Z矩阵。

优选地，所述的深度学习模型为卷积神经网络模型。

优选地，训练深度学习模型包括模型参数的优化，所述的模型参数包括：批尺寸、训练周期、优化算法、学习速率、Dropout正则化以及隐藏层中神经元数量。

优选地，步骤(6)采用Modpipe同源建模软件对目标蛋白质序列进行同源建模。

与现有技术相比，本发明具有如下优点：

(1)本发明利用蛋白质三维空间结构数据进行蛋白质相互作用预测，与基于氨基酸序列的蛋白质相互作用预测方法相比，本发明大大提高了对蛋白质相互作用的预测准确性；

(2)本发明采用卷积神经网络模型这一深度学习模型进行蛋白质相互作用预测，在对蛋白质三维结构的特征提取上优于传统的机器学习技术，从而进一步提高预测准确性。

附图说明

图1为本发明基于空间结构的蛋白质相互作用预测方法的流程框图；

图2本发明的深度学习网络模型工作流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，一种基于空间结构的蛋白质相互作用预测方法，该方法包括如下步骤：

(1)采集蛋白质三维空间结构标准数据：蛋白质三维空间结构标准数据为 PDB数据库中的原始蛋白质亚基-蛋白质亚基复合体结构数据。结构数据需通过核磁共振、X射线晶体衍射或电子显微镜中的至少一种实验方法测定。

(2)利用三维空间结构标准数据构建蛋白质相互作用正、负样本数据集：将 PDB数据库中的蛋白质亚基复合体拆分成两两互作的蛋白质亚基对，形成正样本数据集；将所有拆分的蛋白质亚基随机组合构成非互作蛋白质亚基对，形成负样本数据集，且负样本数据集中的数据满足：1)负样本数据不存在于正样本数据集中， 2)负样本蛋白质对不同时存在于同一蛋白质复合体。

具体地，利用PIBASE软件包计算得到蛋白质复合体中各亚基之间互作界面的结构及对应互作残基。去除复合体中的非蛋白质亚基部分，共计获得约55万个蛋白质亚基。根据大小为8(±2)nm2，20-30个氨基酸(文献支持)构成的互作界面为标准稳定互作，按照此标准对存在稳定相互作用的蛋白质亚基对进行筛选，得到共计约33万个存在相互作用的蛋白质亚基对。利用CD-HIT软件包对蛋白质亚基进行90％的序列相似性(尽可能保留最多数据原则)聚类，去除数据集中的冗余部分，最终得到约1.3万个存在相互作用的蛋白质亚基对作为正样本数据集。非互作负样本数据集则由阳性正样本数据进行随机重排配对获得，且满足以下标准：1) 负样本数据不存在于正样本数据集中；2)负样本蛋白质对不同时存在于同一蛋白质复合体。

(3)提取正、负样本数据集中的蛋白质三维空间结构标准数据的结构矩阵，结构矩阵包括三个，分别为X-Y矩阵、X-Z矩阵和Y-Z矩阵：

结构矩阵通过如下方式得到：

(a)对氨基酸进行数字编码，每个氨基酸对应一个自然数编码，如表1所示为本实施例氨基酸1-20编码，表1中X表示缺省位置，编码为0；

表1氨基酸1-20编码

氨基酸缩写

Ala

Cys

Asp

Glu

Phe

Gly

His

Ile

Lys

Leu

氨基酸代码

A

C

D

E

F

G

H

I

K

L

自然数编码

1

2

3

4

5

6

7

8

9

10

氨基酸缩写

Met

Asn

Pro

Gln

Arg

Ser

Thr

Val

Trp

Tyr

X

氨基酸代码

M

N

P

Q

R

S

T

V

W

Y

X

自然数编码

11

12

13

14

15

16

17

18

19

20

0

步骤(3)处理的蛋白质亚基数据集中的每个蛋白质文件包含了其各个原子的三维坐标位置。取每个蛋白质α碳原子对应的三维坐标，将其坐标四舍五入取整数，在对应的X-Y矩阵、X-Z矩阵和Y-Z矩阵位点进行赋值。蛋白质复合体亚基文件中的14-16列,18-20列，32-54列数据分别为原子名称，氨基酸名称，原子XYZ坐标。如赖氨酸CA Lys118.14752，63.99874，9.37564，则原子是α碳原子，氨基酸是赖氨酸，三维空间坐标是(118.14752，63.99874，9.37564)。将三维空间坐标取整，在X-Y矩阵坐标点(118，64)、X-Z矩阵坐标点(118，9)和Y-Z矩阵坐标点(64，9)进行赋值。为对蛋白质各个氨基酸进行简单区分，采用自然数进行编码。组成蛋白质的20种最常见氨基酸按照1-20编码，缺省位置及罕见氨基酸用0 编码。

如表2所示为本实施例蛋白质三维空间结构标准数据，其中第一列为各个氨基酸的名称，第二至四列为α碳原子的三维坐标，分别对应X坐标值、Y坐标值以及Z坐标值。

表2蛋白质三维空间结构标准数据

	X	Y	Z
				Met	105.621	159.964	125.046
Ala	106.272	159.324	128.687
				Gly	109.052	160.598	130.839
Phe	110.459	161.673	131.679
				Phe	111.25	162.93	137.103
Ser	114.355	164.421	135.985
				Leu	115.567	164.469	132.998
Gly	116.62	164.132	135.364
				His	117.11	165.933	138.197
Gly	119.506	166.037	139.113

如表2中第一行的Met甲硫氨酸，其三维坐标为(105.621，159.964，125.046)，由此得到X-Y矩阵坐标点为(105,160)、X-Z矩阵坐标点为(105,125)、Y-Z矩阵坐标点为(160,125)，查表1所示，甲硫氨酸Met赋值为11，则在对应位置赋值 11，以此类推，得到X-Y矩阵、X-Z矩阵和Y-Z矩阵。表3、表4和表5对应为 X-Y矩阵、X-Z矩阵和Y-Z矩阵的赋值表。

表3X-Y矩阵赋值表

	106	107	108	109	110	111	112	113	114	115	116	117	118	119	120
																159	1
160	11
																161		6
162					5
																163			5
164									16		10	6
																165
166												7			6

表4X-Z矩阵赋值表

	106	107	108	109	110	111	112	113	114	115	116	117	118	119	120
																125	11
126
																127
128
																129	1
130
																131		6
132					5
																133				10
134
																135					6
136									16
																137			5
138												7
																139						6

表5Y-Z矩阵赋值表

(4)构建用于蛋白质相互作用预测的深度学习模型，本发明采用卷积神经网络模型。

(5)将正、负样本集中的结构矩阵输入至深度学习模型，训练深度学习模型：

具体地，使用Pytorch搭建深度神经网络具体流程如图2所示。该深度学习模型采用了序贯模型，随后构建网络层的输入层、隐藏层和输出层，编译后给定输入数据集并对模型进行测试与验证，得到一个深度学习的初始分类模型及对该模型的评估结果。其中该模型的参数初始值设置为：批尺寸为10，训练周期为50，优化算法为Adam，学习速率为0.001,Dropout正则化为0.5，隐藏层内神经元的个数为 12300个，默认全部参数调优使用的是十折交叉验证。首先设置批尺寸和训练周期的取值列表，各值单调递增，随后采用网格搜索方法，在其他参数不变的前提下，得到这两个参数的不同取值对模型效果的影响评估。取得效果最好的批尺寸和训练周期参数值后，在模型中固定该参数，随后继续采用网格搜索办法搜索训练优化算法的最佳选择。最终该蛋白质互作分类模型的最佳参数组合为：批尺寸为20，训练周期为50，优化算法为Adam，学习速率为0.001,Dropout正则化为0.75，隐藏层内神经元的个数为12300个。

(6)对目标蛋白质序列进行同源建模获取目标蛋白质三维空间结构数据：

具体地，从PDB数据库中收集蛋白质的同源结构模板。随后运用采用 MODPIPE软件对目标蛋白质序列进行同源建模。以拟南芥基因组为例，从TAIR 数据库中下载其基因组编码基因序列，对基因编码蛋白质进行同源建模，比对方法包括sequence-sequence比对、profile-sequence比对、profile-profile比对。评估同源建模模型质量运用MPQS进行打分，MPQS是一个综合评分，包括序列相似性，模板覆盖面，和三个独立的评估分数：e-value，Z-DOPE和GA341。通过观察打分概率分布函数，设定打分阈值为MPQS≧0.5，视为稳定的同源建模模型。

将同源建模模型的序列长度进行打分，过滤去除过短的不足以判断是否存在互作界面的蛋白质同源结构模型。MODSEQ-sore＝L-MOD/L-SEQ，L-MOD为同源建模序列长度，L-SEQ为对应基因序列长度。结合MODSEQ-sore的概率密度分布函数，在保留尽可能多的数据前提下提高阈值以提高数据质量。设定阈值为30％，共计得到约1.7万个拟南芥编码基因的同源建模结果。

(7)提取目标蛋白质三维空间结构数据的结构矩阵，同理，此处结构矩阵包括X-Y矩阵、X-Z矩阵和Y-Z矩阵。

(8)将目标蛋白质的结构矩阵输入至训练好的深度学习模型预测得到目标蛋白质相互作用的概率。本实施例利用最优分类模型对同源建模结果进行蛋白质与蛋白质相互作用预测，其筛选阈值>＝0.5，作为阳性预测结果。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于空间结构的蛋白质相互作用预测方法，其特征在于，该方法包括如下步骤：

(1)采集蛋白质三维空间结构标准数据；

(4)构建用于蛋白质相互作用预测的深度学习模型；

(7)提取目标蛋白质三维空间结构数据的结构矩阵；

(8)将目标蛋白质的结构矩阵输入至训练好的深度学习模型预测得到目标蛋白质相互作用的概率；

步骤(3)和步骤(7)中结构矩阵包括三个，分别为X-Y矩阵、X-Z矩阵和Y-Z矩阵；

结构矩阵通过如下方式得到：

(c)对氨基酸的X、Y、Z坐标值进行四舍五入取整得到(x′,y′,z′)，x′、y′、z′对应为x、y、z的四舍五入取整值，进而得到该氨基酸的X-Y矩阵坐标点(x′,y′)、X-Z矩阵坐标点(x′,z′)和Y-Z矩阵坐标点(y′,z′)；

2.根据权利要求1所述的一种基于空间结构的蛋白质相互作用预测方法，其特征在于，步骤(1)中蛋白质三维空间结构标准数据为PDB数据库中的原始蛋白质亚基-蛋白质亚基复合体结构数据。

3.根据权利要求2所述的一种基于空间结构的蛋白质相互作用预测方法，其特征在于，步骤(2)具体为：

将所有拆分的蛋白质亚基随机组合构成非互作蛋白质亚基对，形成负样本数据集，且负样本数据集中的数据满足：1)负样本数据不存在于正样本数据集中，2)负样本蛋白质对不同时存在于同一蛋白质复合体。

4.根据权利要求1所述的一种基于空间结构的蛋白质相互作用预测方法，其特征在于，所述的深度学习模型为卷积神经网络模型。

5.根据权利要求4所述的一种基于空间结构的蛋白质相互作用预测方法，其特征在于，训练深度学习模型包括模型参数的优化，所述的模型参数包括：批尺寸、训练周期、优化算法、学习速率、Dropout正则化以及隐藏层中神经元数量。

6.根据权利要求1所述的一种基于空间结构的蛋白质相互作用预测方法，其特征在于，步骤(6)采用Modpipe同源建模软件对目标蛋白质序列进行同源建模。