CN106778065A

CN106778065A - 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Info

Publication number: CN106778065A
Application number: CN201611255461.9A
Authority: CN
Inventors: 赵兴明; 何峰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-31
Anticipated expiration: 2036-12-30
Also published as: CN106778065B

Abstract

一种基于多元数据预测DNA突变影响蛋白互作(Protein‑Protein Interaction，PPI)的预测方法。本方法以DNA上SNP(Single Nucleotide Polymorphisms，SNP)是否对蛋白互作产生影响为研究对象，使用蛋白质的结构、功能和氨基酸序列相关的七类特征，采用支持向量机(Support Vector Machine，SVM)和集成学习算法作为分类器，就SNP是否破坏蛋白互作进行预测。同时，对蛋白之间是否存在相互作用以及SNP引起的氨基酸变异是否发生在蛋白互作面(PPI interface)上进行判断。

Description

一种基于多元数据预测DNA突变影响蛋白互作的预测方法

技术领域

本发明涉及一种在机器学习与生物信息学知识背景下，预测DNA突变影响蛋白互作的算法，尤其是涉及一种基于多元数据预测DNA突变影响蛋白互作的预测方法。

背景技术

DNA单位点核苷酸突变(Single Nucleotide Polymorphisms，SNP)导致蛋白质氨基酸变异从而破坏蛋白质互作(Protein Protein Interaction，PPI)可能引发多种疾病，给人类的健康带来很大威胁。例如由SNP rs17646665引起蛋白质APOE发生氨基酸突变，破坏APOE和SORT1之间的蛋白质互作，促进APOE/Aβ化合物的生成，加大了阿尔海默茨病(AD)的患病风险。

目前预测SNP对PPI稳定性影响的算法主要有以下四种：

1.基于蛋白质结构进行预测的算法，如AUTO-MUTE[Masso,M.and Vaisman,I.(2008)Accurate prediction of stability changes in protein mutants bycombining machine learning with structure based computationalmutagenesis.Bioinformatics,24,2002–2009],CUPSAT[Parthiban,V.,et al.(2006)CUPSAT:prediction of protein stability upon point mutations.Nucleic AcidsRes.,34,239–242]等。这一类方法主要使用蛋白质化合物的结构特征，如溶剂可及面积、氨基酸之间距离、残疾深度等，结合机器学习和统计学方法对结合自由能(Binding freeenergy)进行回归预测。

2.基于蛋白质能量信息的算法，如MutaBind[Li M,Simonetti FL,GoncearencoA,Panchenko AR.(2016)MutaBind estimates and interprets the effects ofsequence variants on protein-protein interactions.Nucleic Acids Res.,44(W1),W494–501]。这一类方法主要利用了蛋白氨基酸残基突变前后能量的改变，如利用能量模块算法计算出的范德华力等对结合自由能进行回归。

3.基于蛋白质序列的算法，如iPTREE-STAB[Huang,L.T.et al.(2007)iPTREE-STAB:interpretable decision tree based method for predicting proteinstability changes upon mutations.Bioinformatics,23,1292–1293]，MuStab[Teng,S.et al.(2010)Sequence feature-based prediction of protein stability changesupon amino acid substitutions.BMC Genomics,11,5.Bioinformatics,23,1292–1293]等，使用蛋白质化合物残基序列信息作为特征，拟合突变前后结合自由能的变化量，从而对SNP是否破坏蛋白互作进行判断。

4.基于蛋白质结构和序列的复合型方法，如iStable[Chen,C.W.et al.(2013)iStable:off-the-shelf predictor integration for redicting rotein stabilitychanges.BMC Bioinformatics,14,S5]，使用了蛋白化合物的20种氨基酸频率等蛋白序列特征以及相对溶剂可及性等蛋白结构特征，对结合自由能变化量进行回归预测。

上述这些方法存在如下缺点，一是尽管结合自由能和蛋白互作之间有着必然联系，但是缺乏统一标准或阈值来确定蛋白互作是否被破坏。二是数据种类较少，即只考虑使用一种或两种数据进行拟合，且在同种数据中，只使用有限的几种特征。三是这些方法在计算过程中只考虑产生氨基酸突变的位点的相应特征，忽略了突变氨基酸周围位点信息。四是在计算过程中，结合机器学习的预测算法没有采取有效的特征选择，导致样本包含大量冗余信息，不能取得准确的预测效果。

发明内容

为了克服现有预测DNA突变影响蛋白互作算法的缺陷，得到更为准确的预测效果，本发明提供一种基于蛋白多元数据，且同时参考突变氨基酸周围位点信息的预测DNA突变影响蛋白互作的预测方法。并对蛋白之间是否存在相互作用，DNA突变是否引起氨基酸突变及氨基酸突变是否发生在对应蛋白互作面上进行判断。

首先，本发明对蛋白之间是否存在相互作用，SNP是否引起氨基酸变异及变异是否发生在蛋白互作面上进行判断。若条件成立，则以SNP是否破坏蛋白互作作为研究对象，使用蛋白质结构、功能和氨基酸序列相关的七类特征，采用支持向量机(Support VectorMachine，SVM)和集成学习算法作为分类器，预测SNP是否破坏蛋白互作。

实现方案如下

为此，本发明给出的技术方案，表征为：

一种基于多元数据预测DNA突变影响蛋白互作的预测方法，其特征在于，包括：

步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对，用来判断蛋白之间是否存在蛋白互作；

步骤2、结合NCBI提供的dbSNP数据，利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库，做记录，用来判定SNP是否引起蛋白上氨基酸突变；

步骤3、结合PDB数据库中提供的蛋白互作结构信息，整理出蛋白互作面信息，应用实施步骤2中数据库，判断SNP引起的氨基酸突变是否发生在蛋白互作面上；

步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本，利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵，结合公式(1)，计算SNP引起氨基酸突变是否破坏蛋白互作

Lab_i＝a_jm-a_jn (1)

其中Lab_i表示第i个样本，a_jm、a_jn分别表示变异后与变异前的氨基酸对出现的概率，当Lab_i大于等于0时，表示在第i个样本中，SNP引起的氨基酸突变没有破坏蛋白互作，为负样本；而当Lab_i小于0时，表示SNP引起的氨基酸突变破坏了蛋白互作，为正样本；此处只用来计算样本标签；

步骤5、根据实施步骤4中的样本，以每个样本氨基酸变异点为中心，在蛋白互作面上取长度为15的氨基酸序列窗口，提取该窗口蛋白质结构、功能和序列相关的七个特征，具体实施如下：

步骤(51)、对窗口两条序列，按照窗口大小为2进行窗口滑动提取氨基酸对，统计氨基酸对频率，得相应特征，每个特征即为相应氨基酸对频率；

步骤(52)、基于20种氨基酸，提取每种氨基酸的理化性质，提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量，又得相应特征；

步骤(53)、基于每个样本PDB文件，利用PSAIA(Protein Structure AndInteraction Analyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征，相对信息(Relative change)利用公式(2)进行计算：

ASA_RC＝(ASA_M-ASA_C)/ASA_M

步骤(54)、基于每一个样本的蛋白互作面窗口序列信息，结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr)，分别计算窗口中两条氨基酸序列的序列保守性PSSM(Position-Specific Scoring Matrix),将矩阵所有元素按列依次放入向量中，共得相应个特征；

步骤(55)、对每一个样本，从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息，共得相应个特征；

步骤(56)、基于样本中涉及到的两个蛋白质，利用公式(3)求出PPI比

其中N(P_i)表示取与蛋白质P_i有相互作用关系的蛋白质集合；

步骤(57)、基于样本中SNP引起的突变氨基酸，提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值，是一个一维特征；

步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征，以SVM和贪婪算法思想为基础进行特征选择，过程如下：

步骤(61)，首先对所有的特征利用公式(4)进行归一化：

其中，表示第j类的第i个特征，表示这个特征在所有样本上面的平均值，表示这个特征的标准差；

步骤(62)，将两个一维特征PPI ratio和BLOSUM62放入另外五类特征中，即对另五类特征分别追加两维特征；

步骤(63)，对这五类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征，如公式(5)：

其中，和分别表示第j类的第i个特征的正样本和负样本的均值，同理，和分别表示第j类的第i个特征的正样本和负样本的标准差，选取SNR_ji值最大的特征作为第j类的初始特征；

步骤(64)，以SVM算法为基础结合贪婪算法思想，在确定每一类特征初始特征基础上，结合十折交叉验证，依次遍历剩余特征，与初始特征构成二维特征向量，计算平均F1值，并提取当平均F1达到最大值时的特征组合；

重复上述过程依次加入特征，直至测试集上平均F1不再增大；至此，对这一类特征来说，特征选择完成，得到最优的特征组合、由这些特征训练的SVM模型与最优F1；F1值计算如公式(6)所示：

其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量；

步骤(65)，基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1_k,k∈{1,2,3,4,5}和SVM模型svm_k,k∈{1,2,3,4,5}，采用多数表决结合策略，构建集成分类器如公式(7)所示，预测SNP引起的氨基酸突变是否破坏蛋白互作：

其中F1_k表示五类特征中每一类特征的最优F1值，svm_k表示的是实施步骤5中得到的每一类特征的SVM模型，表示的是PPI_j基于SNP_i作用在第k类特征上取得的特征。

本发明的有益效果是，提供了一种高准确率的基于多元数据预测DNA突变影响蛋白互作的预测方法，不仅结合了蛋白质相关的多元数据，而且考虑了突变位点周围残基的信息，从而提高了预测模型的鲁棒性和准确性。同时对两个蛋白质是否有相互作用，SNP是否引起氨基酸突变及突变是否发生在对应蛋白互作面上给予判断。

附图说明

图1是本发明的实施流程

图2是本发明的5个实例预测结果

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图和实施例，对本发明进行详细的说明。

本发明技术方案实施前的准备，可描述为以下几个部分：

1.提取蛋白互作数据库：整理HPRD、BioGrid、IntAct、MINT和DIP五个PPI数据库包含的所有非冗余蛋白互作，用来判断两个蛋白之间是否存在蛋白互作。

2.提取SNP引起氨基酸突变数据库：使用Polyphen2、SIFT、MutationAsseso软件，结合NCBI提供的dbSNP数据，提取SNP引起的蛋白序列上氨基酸突变数据库，从而对SNP是否引起蛋白氨基酸突变进行判断。

3.提取蛋白互作面数据库：提取PDB数据库中蛋白互作面数据，整理出蛋白互作面数据库，对SNP引起的氨基酸突变是否发生在蛋白互作面上进行判断。

4.明确正负样本：结合Mechismo(http://mechismo.russelllab.org/)提供的蛋白互作面上氨基酸概率矩阵和准备项1-3中整理出的数据库，确定正负样本，其中SNP引起的氨基酸突变未破坏蛋白互作的SNP与蛋白互作对为负样本，破坏单边互作的SNP与蛋白互作对为正样本。

5.基于SVM和贪婪算法的特征选择：对准备项4中涉及样本，提取蛋白结构、功能和序列相关的七类特征即：氨基酸频率、氨基酸理化性质、蛋白质结构信息、PSSM、氨基酸残基温度、蛋白质相互作用率(PPI ratio)以及位置权重矩阵BLOSUM62，基于SVM和十折交叉验证方法，结合贪婪算法对每一类特征进行特征选择。

6.构建集成分类器：基于准备项5中每一类特征的特征选择结果和子模型，应用多数表决(majority voting)结合策略，构建集成分类器。

预测SNP引起的氨基酸突变是否破坏蛋白互作：对输入的SNP和蛋白质实施本发明技术方案进行相应判断和预测。附图1是本发明的实施流程，如图1所示，本发明结合蛋白相关多元数据对SNP引起的氨基酸突变是否破坏蛋白互作进行预测。同时对蛋白间是否存在相互作用，SNP是否引起氨基酸突变及突变是否发生在对应蛋白互作面上给予判断。具体的实施步骤包含：

实施例

步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作共233461对，可用来判断蛋白之间是否存在蛋白互作。

步骤2、结合NCBI提供的161456298条dbSNP数据，利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库，共33306条记录，可用来判定SNP是否引起蛋白上氨基酸突变。

步骤3、结合PDB数据库中提供的蛋白互作结构信息，整理出共260182条蛋白互作面信息，应用实施步骤2中数据库，可判断SNP引起的氨基酸突变是否发生在蛋白互作面上。

Lab_i＝a_jm-a_jn (1)

其中Lab_i表示第i个样本，a_jm、a_jn分别表示变异后与变异前的氨基酸对出现的概率，当Lab_i大于等于0时，表示在第i个样本中，SNP引起的氨基酸突变没有破坏蛋白互作，为负样本。而当Lab_i小于0时，表示SNP引起的氨基酸突变破坏了蛋白互作，为正样本。由此共得到700个正样本和1428负样本。因Mechism所提供矩阵是由样本蛋白互作面上的氨基酸变异对统计得出(Accuracy≤0.78)，准确率很低，此处只用来计算样本标签。

步骤5、根据实施步骤4中的样本，以每个样本氨基酸变异点为中心，在蛋白互作面上取长度为15的氨基酸序列窗口，提取该窗口蛋白质结构、功能和序列相关的七个特征，如下：

步骤(51)、对窗口两条序列，按照窗口大小为2进行窗口滑动提取氨基酸对，统计氨基酸对频率，得共20²*2＝800个特征，每个特征即为相应氨基酸对频率。

步骤(52)、基于20种氨基酸，提取每种氨基酸的10种理化性质即number of atoms(Na),number of electrostatic charge(Nec),number of potential hydrogen bonds(Nphb),hydrophobicity(Hdrpo),hydrophilicity(Hdrpi),propensity(Prop),isoelectric point(Isoep),mass(Mass),expected number of contacts withinsphere(Enc),electron-ion interaction potential(Eiip)。提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量，得共15×10×2＝300个特征。

步骤(53)、基于每个样本PDB文件，利用PSAIA(Protein Structure AndInteraction Analyser)软件计算蛋白互作面窗口序列的49×2＝98个单体及化合物状态的蛋白结构特征，如表1所示。其中相对信息(Relative change)利用公式(2)进行计算。

步骤(54)、基于每一个样本的蛋白互作面窗口序列信息，结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr)，分别计算窗口中两条15氨基酸序列的序列保守性PSSM(Position-Specific Scoring Matrix),将矩阵所有元素按列依次放入向量中，共300×2＝600个特征。

步骤(55)、对每一个样本，从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息，共15×2＝30个特征。

其中N(P_i)表示取与蛋白质P_i有相互作用关系的蛋白质集合。

步骤(57)、基于样本中SNP引起的突变氨基酸，提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值，是一个一维特征。

表1.49个蛋白质化合物结构信息

步骤(61)，首先对所有的特征利用公式(4)进行归一化。

其中，表示第j类的第i个特征，表示这个特征在所有样本上面的平均值，表示这个特征的标准差。

步骤(62)，将两个一维特征PPI ratio和BLOSUM62放入另外五类特征中，

即对另五类特征分别追加两维特征。

步骤(63)，对这五类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征，如公式(5)

其中，和分别表示第j类的第i个特征的正样本和负样本的均值，同理，和分别表示第j类的第i个特征的正样本和负样本的标准差，选取SNR_ji值最大的特征作为第j类的初始特征。

步骤(64)，以SVM算法为基础结合贪婪算法思想，在确定每一类特征初始特征基础上，结合十折交叉验证，依次遍历剩余特征，与初始特征构成二维特征向量，计算平均F1值，并提取当平均F1达到最大值时的特征组合。重复上述过程依次加入特征，直至测试集上平均F1不再增大。至此，对这一类特征来说，特征选择完成，得到最优的特征组合、由这些特征训练的SVM模型与最优F1。F1值计算如公式(6)所示。

其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量。

步骤(65)，基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1_k,k∈{1,2,3,4,5}和SVM模型svm_k,k∈{1,2,3,4,5}，采用多数表决结合策略，构建集成分类器如公式(7)所示，预测SNP引起的氨基酸突变是否破坏蛋白互作。

其中F1_k表示五类特征中每一类特征的最优F1值，svm_k表示的是实施步骤5中得到的每一类特征的SVM模型，表示的是PPI_j基于SNP_i作用在第k类特征上取得的特征。因采用多数表决策略，所以门限值设为0.6，即r(SNP_i,PPI_j)大于等于0.6，则SNP_i引起的氨基酸突变破坏了PPI_j。

Claims

1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法，其特征在于，包括：

Lab_i＝a_jm-a_jn (1)

步骤(53)、基于每个样本PDB文件，利用PSAIA(Protein Structure And InteractionAnalyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征，相对信息(Relative change)利用公式(2)进行计算：

ASA_RC＝(ASA_M-ASA_C)/ASA_M

DI_RC＝(DI_C-DI_M)/DI_C

PI_RC＝(PI_M-PI_C)/PI_M (2)

M:Unbound C:Bound

P P I_{ratio}_{i} = \frac{| N (P_{A}) \cap N (P_{B}) |}{| N (P_{A}) \cup N (P_{B}) |} - - - (3)

其中N(P_i)表示取与蛋白质P_i有相互作用关系的蛋白质集合；

步骤(61)，首先对所有的特征利用公式(4)进行归一化：

{nFea}_{i}^{j} = ({Fea}_{i}^{j} - \overset{&OverBar;}{{Fea}_{i}^{j}}) / σ ({Fea}_{i}^{j}) - - - (4)

{SNR}_{j i} = \frac{| \overset{&OverBar;}{x_{j i}^{p}} - \overset{&OverBar;}{x_{j i}^{n}} |}{| σ_{j i}^{p} - σ_{j i}^{n} |} - - - (5)

\begin{matrix} precision = \frac{TP}{TP + FP} \\ recall = \frac{TP}{TP + FN} \\ F 1 = \frac{2 \times precisio \times nrecall}{precision + recall} \\ Accuracy = \frac{TP + TN}{TP + FP + TN + FN} \end{matrix} - - - (6)

r ({SNP}_{i}, {PPI}_{j}) = \frac{1}{Σ_{k = 1}^{5} F 1_{k}} Σ_{k = 1}^{5} F 1_{k} {svm}_{k} ({Fea}_{i j}^{k}) - - - (7)

2.根据权利要求1所述的预测方法，其特征是：以HPRD、BioGrid、IntAct、MINT和DIP五个PPI数据库整理出的非冗余PPI为标准，对输入的两个蛋白是否存在相互作用进行判断。

3.根据权利要求1所述的预测方法，其特征是：使用Polyphen2、SIFT、MutationAsseso软件，结合NCBI提供的dbSNP数据，整理出SNP引起的蛋白序列上氨基酸突变数据库，从而对SNP是否引起蛋白质氨基酸突变进行判断。

4.根据权利要求1所述的预测方法，其特征是：以PDB(Protein Data Bank)数据库为基础，整理出蛋白互作面数据库，从而对SNP引起的氨基酸突变是否发生在蛋白互作面上进行判断。

5.根据权利要求1所述的预测方法，其特征是：根据SNP引起的蛋白肽链残基的变异以及蛋白结构、功能和氨基酸序列相关的七类特征即：氨基酸频率(Amino acid frequency)、氨基酸理化性质(Amino acid physicochemical)、蛋白质结构信息(Protein structure)、位点特异性打分矩阵(Position Specific Scoring Matrix,PSSM)、氨基酸残基温度(Amino acid residue temperature)、蛋白质相互作用率(PPI ratio)以及位置权重矩阵BLOSUM62，基于SVM和集成学习方法判断SNP是否破坏蛋白互作。