CN106778065A - 一种基于多元数据预测dna突变影响蛋白互作的预测方法 - Google Patents

一种基于多元数据预测dna突变影响蛋白互作的预测方法 Download PDF

Info

Publication number
CN106778065A
CN106778065A CN201611255461.9A CN201611255461A CN106778065A CN 106778065 A CN106778065 A CN 106778065A CN 201611255461 A CN201611255461 A CN 201611255461A CN 106778065 A CN106778065 A CN 106778065A
Authority
CN
China
Prior art keywords
protein
amino acid
interactions
feature
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611255461.9A
Other languages
English (en)
Other versions
CN106778065B (zh
Inventor
赵兴明
何峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201611255461.9A priority Critical patent/CN106778065B/zh
Publication of CN106778065A publication Critical patent/CN106778065A/zh
Application granted granted Critical
Publication of CN106778065B publication Critical patent/CN106778065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于多元数据预测DNA突变影响蛋白互作(Protein‑Protein Interaction,PPI)的预测方法。本方法以DNA上SNP(Single Nucleotide Polymorphisms,SNP)是否对蛋白互作产生影响为研究对象,使用蛋白质的结构、功能和氨基酸序列相关的七类特征,采用支持向量机(Support Vector Machine,SVM)和集成学习算法作为分类器,就SNP是否破坏蛋白互作进行预测。同时,对蛋白之间是否存在相互作用以及SNP引起的氨基酸变异是否发生在蛋白互作面(PPI interface)上进行判断。

Description

一种基于多元数据预测DNA突变影响蛋白互作的预测方法
技术领域
本发明涉及一种在机器学习与生物信息学知识背景下,预测DNA突变影响蛋白互作的算法,尤其是涉及一种基于多元数据预测DNA突变影响蛋白互作的预测方法。
背景技术
DNA单位点核苷酸突变(Single Nucleotide Polymorphisms,SNP)导致蛋白质氨基酸变异从而破坏蛋白质互作(Protein Protein Interaction,PPI)可能引发多种疾病,给人类的健康带来很大威胁。例如由SNP rs17646665引起蛋白质APOE发生氨基酸突变,破坏APOE和SORT1之间的蛋白质互作,促进APOE/Aβ化合物的生成,加大了阿尔海默茨病(AD)的患病风险。
目前预测SNP对PPI稳定性影响的算法主要有以下四种:
1.基于蛋白质结构进行预测的算法,如AUTO-MUTE[Masso,M.and Vaisman,I.(2008)Accurate prediction of stability changes in protein mutants bycombining machine learning with structure based computationalmutagenesis.Bioinformatics,24,2002–2009],CUPSAT[Parthiban,V.,et al.(2006)CUPSAT:prediction of protein stability upon point mutations.Nucleic AcidsRes.,34,239–242]等。这一类方法主要使用蛋白质化合物的结构特征,如溶剂可及面积、氨基酸之间距离、残疾深度等,结合机器学习和统计学方法对结合自由能(Binding freeenergy)进行回归预测。
2.基于蛋白质能量信息的算法,如MutaBind[Li M,Simonetti FL,GoncearencoA,Panchenko AR.(2016)MutaBind estimates and interprets the effects ofsequence variants on protein-protein interactions.Nucleic Acids Res.,44(W1),W494–501]。这一类方法主要利用了蛋白氨基酸残基突变前后能量的改变,如利用能量模块算法计算出的范德华力等对结合自由能进行回归。
3.基于蛋白质序列的算法,如iPTREE-STAB[Huang,L.T.et al.(2007)iPTREE-STAB:interpretable decision tree based method for predicting proteinstability changes upon mutations.Bioinformatics,23,1292–1293],MuStab[Teng,S.et al.(2010)Sequence feature-based prediction of protein stability changesupon amino acid substitutions.BMC Genomics,11,5.Bioinformatics,23,1292–1293]等,使用蛋白质化合物残基序列信息作为特征,拟合突变前后结合自由能的变化量,从而对SNP是否破坏蛋白互作进行判断。
4.基于蛋白质结构和序列的复合型方法,如iStable[Chen,C.W.et al.(2013)iStable:off-the-shelf predictor integration for redicting rotein stabilitychanges.BMC Bioinformatics,14,S5],使用了蛋白化合物的20种氨基酸频率等蛋白序列特征以及相对溶剂可及性等蛋白结构特征,对结合自由能变化量进行回归预测。
上述这些方法存在如下缺点,一是尽管结合自由能和蛋白互作之间有着必然联系,但是缺乏统一标准或阈值来确定蛋白互作是否被破坏。二是数据种类较少,即只考虑使用一种或两种数据进行拟合,且在同种数据中,只使用有限的几种特征。三是这些方法在计算过程中只考虑产生氨基酸突变的位点的相应特征,忽略了突变氨基酸周围位点信息。四是在计算过程中,结合机器学习的预测算法没有采取有效的特征选择,导致样本包含大量冗余信息,不能取得准确的预测效果。
发明内容
为了克服现有预测DNA突变影响蛋白互作算法的缺陷,得到更为准确的预测效果,本发明提供一种基于蛋白多元数据,且同时参考突变氨基酸周围位点信息的预测DNA突变影响蛋白互作的预测方法。并对蛋白之间是否存在相互作用,DNA突变是否引起氨基酸突变及氨基酸突变是否发生在对应蛋白互作面上进行判断。
首先,本发明对蛋白之间是否存在相互作用,SNP是否引起氨基酸变异及变异是否发生在蛋白互作面上进行判断。若条件成立,则以SNP是否破坏蛋白互作作为研究对象,使用蛋白质结构、功能和氨基酸序列相关的七类特征,采用支持向量机(Support VectorMachine,SVM)和集成学习算法作为分类器,预测SNP是否破坏蛋白互作。
实现方案如下
为此,本发明给出的技术方案,表征为:
一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:
步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;
步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;
步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;
步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作
Labi=ajm-ajn (1)
其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;
步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:
步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;
步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;
步骤(53)、基于每个样本PDB文件,利用PSAIA(Protein Structure AndInteraction Analyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息(Relative change)利用公式(2)进行计算:
ASARC=(ASAM-ASAC)/ASAM
步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr),分别计算窗口中两条氨基酸序列的序列保守性PSSM(Position-Specific Scoring Matrix),将矩阵所有元素按列依次放入向量中,共得相应个特征;
步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;
步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比
其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;
步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;
步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:
步骤(61),首先对所有的特征利用公式(4)进行归一化:
其中,表示第j类的第i个特征,表示这个特征在所有样本上面的平均值,表示这个特征的标准差;
步骤(62),将两个一维特征PPI ratio和BLOSUM62放入另外五类特征中,即对另五类特征分别追加两维特征;
步骤(63),对这五类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征,如公式(5):
其中,分别表示第j类的第i个特征的正样本和负样本的均值,同理,分别表示第j类的第i个特征的正样本和负样本的标准差,选取SNRji值最大的特征作为第j类的初始特征;
步骤(64),以SVM算法为基础结合贪婪算法思想,在确定每一类特征初始特征基础上,结合十折交叉验证,依次遍历剩余特征,与初始特征构成二维特征向量,计算平均F1值,并提取当平均F1达到最大值时的特征组合;
重复上述过程依次加入特征,直至测试集上平均F1不再增大;至此,对这一类特征来说,特征选择完成,得到最优的特征组合、由这些特征训练的SVM模型与最优F1;F1值计算如公式(6)所示:
其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量;
步骤(65),基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多数表决结合策略,构建集成分类器如公式(7)所示,预测SNP引起的氨基酸突变是否破坏蛋白互作:
其中F1k表示五类特征中每一类特征的最优F1值,svmk表示的是实施步骤5中得到的每一类特征的SVM模型,表示的是PPIj基于SNPi作用在第k类特征上取得的特征。
本发明的有益效果是,提供了一种高准确率的基于多元数据预测DNA突变影响蛋白互作的预测方法,不仅结合了蛋白质相关的多元数据,而且考虑了突变位点周围残基的信息,从而提高了预测模型的鲁棒性和准确性。同时对两个蛋白质是否有相互作用,SNP是否引起氨基酸突变及突变是否发生在对应蛋白互作面上给予判断。
附图说明
图1是本发明的实施流程
图2是本发明的5个实例预测结果
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。
本发明技术方案实施前的准备,可描述为以下几个部分:
1.提取蛋白互作数据库:整理HPRD、BioGrid、IntAct、MINT和DIP五个PPI数据库包含的所有非冗余蛋白互作,用来判断两个蛋白之间是否存在蛋白互作。
2.提取SNP引起氨基酸突变数据库:使用Polyphen2、SIFT、MutationAsseso软件,结合NCBI提供的dbSNP数据,提取SNP引起的蛋白序列上氨基酸突变数据库,从而对SNP是否引起蛋白氨基酸突变进行判断。
3.提取蛋白互作面数据库:提取PDB数据库中蛋白互作面数据,整理出蛋白互作面数据库,对SNP引起的氨基酸突变是否发生在蛋白互作面上进行判断。
4.明确正负样本:结合Mechismo(http://mechismo.russelllab.org/)提供的蛋白互作面上氨基酸概率矩阵和准备项1-3中整理出的数据库,确定正负样本,其中SNP引起的氨基酸突变未破坏蛋白互作的SNP与蛋白互作对为负样本,破坏单边互作的SNP与蛋白互作对为正样本。
5.基于SVM和贪婪算法的特征选择:对准备项4中涉及样本,提取蛋白结构、功能和序列相关的七类特征即:氨基酸频率、氨基酸理化性质、蛋白质结构信息、PSSM、氨基酸残基温度、蛋白质相互作用率(PPI ratio)以及位置权重矩阵BLOSUM62,基于SVM和十折交叉验证方法,结合贪婪算法对每一类特征进行特征选择。
6.构建集成分类器:基于准备项5中每一类特征的特征选择结果和子模型,应用多数表决(majority voting)结合策略,构建集成分类器。
预测SNP引起的氨基酸突变是否破坏蛋白互作:对输入的SNP和蛋白质实施本发明技术方案进行相应判断和预测。附图1是本发明的实施流程,如图1所示,本发明结合蛋白相关多元数据对SNP引起的氨基酸突变是否破坏蛋白互作进行预测。同时对蛋白间是否存在相互作用,SNP是否引起氨基酸突变及突变是否发生在对应蛋白互作面上给予判断。具体的实施步骤包含:
实施例
步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作共233461对,可用来判断蛋白之间是否存在蛋白互作。
步骤2、结合NCBI提供的161456298条dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,共33306条记录,可用来判定SNP是否引起蛋白上氨基酸突变。
步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出共260182条蛋白互作面信息,应用实施步骤2中数据库,可判断SNP引起的氨基酸突变是否发生在蛋白互作面上。
步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作
Labi=ajm-ajn (1)
其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本。而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本。由此共得到700个正样本和1428负样本。因Mechism所提供矩阵是由样本蛋白互作面上的氨基酸变异对统计得出(Accuracy≤0.78),准确率很低,此处只用来计算样本标签。
步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,如下:
步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得共202*2=800个特征,每个特征即为相应氨基酸对频率。
步骤(52)、基于20种氨基酸,提取每种氨基酸的10种理化性质即number of atoms(Na),number of electrostatic charge(Nec),number of potential hydrogen bonds(Nphb),hydrophobicity(Hdrpo),hydrophilicity(Hdrpi),propensity(Prop),isoelectric point(Isoep),mass(Mass),expected number of contacts withinsphere(Enc),electron-ion interaction potential(Eiip)。提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,得共15×10×2=300个特征。
步骤(53)、基于每个样本PDB文件,利用PSAIA(Protein Structure AndInteraction Analyser)软件计算蛋白互作面窗口序列的49×2=98个单体及化合物状态的蛋白结构特征,如表1所示。其中相对信息(Relative change)利用公式(2)进行计算。
步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr),分别计算窗口中两条15氨基酸序列的序列保守性PSSM(Position-Specific Scoring Matrix),将矩阵所有元素按列依次放入向量中,共300×2=600个特征。
步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共15×2=30个特征。
步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比
其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合。
步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征。
步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:
表1.49个蛋白质化合物结构信息
步骤(61),首先对所有的特征利用公式(4)进行归一化。
其中,表示第j类的第i个特征,表示这个特征在所有样本上面的平均值,表示这个特征的标准差。
步骤(62),将两个一维特征PPI ratio和BLOSUM62放入另外五类特征中,
即对另五类特征分别追加两维特征。
步骤(63),对这五类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征,如公式(5)
其中,分别表示第j类的第i个特征的正样本和负样本的均值,同理,分别表示第j类的第i个特征的正样本和负样本的标准差,选取SNRji值最大的特征作为第j类的初始特征。
步骤(64),以SVM算法为基础结合贪婪算法思想,在确定每一类特征初始特征基础上,结合十折交叉验证,依次遍历剩余特征,与初始特征构成二维特征向量,计算平均F1值,并提取当平均F1达到最大值时的特征组合。重复上述过程依次加入特征,直至测试集上平均F1不再增大。至此,对这一类特征来说,特征选择完成,得到最优的特征组合、由这些特征训练的SVM模型与最优F1。F1值计算如公式(6)所示。
其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量。
步骤(65),基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多数表决结合策略,构建集成分类器如公式(7)所示,预测SNP引起的氨基酸突变是否破坏蛋白互作。
其中F1k表示五类特征中每一类特征的最优F1值,svmk表示的是实施步骤5中得到的每一类特征的SVM模型,表示的是PPIj基于SNPi作用在第k类特征上取得的特征。因采用多数表决策略,所以门限值设为0.6,即r(SNPi,PPIj)大于等于0.6,则SNPi引起的氨基酸突变破坏了PPIj

Claims (5)

1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:
步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;
步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;
步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;
步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作
Labi=ajm-ajn (1)
其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;
步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:
步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;
步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;
步骤(53)、基于每个样本PDB文件,利用PSAIA(Protein Structure And InteractionAnalyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息(Relative change)利用公式(2)进行计算:
ASARC=(ASAM-ASAC)/ASAM
DIRC=(DIC-DIM)/DIC
PIRC=(PIM-PIC)/PIM (2)
M:Unbound C:Bound
步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr),分别计算窗口中两条氨基酸序列的序列保守性PSSM(Position-Specific Scoring Matrix),将矩阵所有元素按列依次放入向量中,共得相应个特征;
步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;
步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比
P P I _ ratio i = | N ( P A ) ∩ N ( P B ) | | N ( P A ) ∪ N ( P B ) | - - - ( 3 )
其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;
步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;
步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:
步骤(61),首先对所有的特征利用公式(4)进行归一化:
nFea i j = ( Fea i j - Fea i j ‾ ) / σ ( Fea i j ) - - - ( 4 )
其中,表示第j类的第i个特征,表示这个特征在所有样本上面的平均值,表示这个特征的标准差;
步骤(62),将两个一维特征PPI ratio和BLOSUM62放入另外五类特征中,即对另五类特征分别追加两维特征;
步骤(63),对这五类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征,如公式(5):
SNR j i = | x j i p ‾ - x j i n ‾ | | σ j i p - σ j i n | - - - ( 5 )
其中,分别表示第j类的第i个特征的正样本和负样本的均值,同理,分别表示第j类的第i个特征的正样本和负样本的标准差,选取SNRji值最大的特征作为第j类的初始特征;
步骤(64),以SVM算法为基础结合贪婪算法思想,在确定每一类特征初始特征基础上,结合十折交叉验证,依次遍历剩余特征,与初始特征构成二维特征向量,计算平均F1值,并提取当平均F1达到最大值时的特征组合;
重复上述过程依次加入特征,直至测试集上平均F1不再增大;至此,对这一类特征来说,特征选择完成,得到最优的特征组合、由这些特征训练的SVM模型与最优F1;F1值计算如公式(6)所示:
precision = TP TP + FP recall = TP TP + FN F 1 = 2 × precisio × nrecall precision + recall Accuracy = TP + TN TP + FP + TN + FN - - - ( 6 )
其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量;
步骤(65),基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多数表决结合策略,构建集成分类器如公式(7)所示,预测SNP引起的氨基酸突变是否破坏蛋白互作:
r ( SNP i , PPI j ) = 1 Σ k = 1 5 F 1 k Σ k = 1 5 F 1 k svm k ( Fea i j k ) - - - ( 7 )
其中F1k表示五类特征中每一类特征的最优F1值,svmk表示的是实施步骤5中得到的每一类特征的SVM模型,表示的是PPIj基于SNPi作用在第k类特征上取得的特征。
2.根据权利要求1所述的预测方法,其特征是:以HPRD、BioGrid、IntAct、MINT和DIP五个PPI数据库整理出的非冗余PPI为标准,对输入的两个蛋白是否存在相互作用进行判断。
3.根据权利要求1所述的预测方法,其特征是:使用Polyphen2、SIFT、MutationAsseso软件,结合NCBI提供的dbSNP数据,整理出SNP引起的蛋白序列上氨基酸突变数据库,从而对SNP是否引起蛋白质氨基酸突变进行判断。
4.根据权利要求1所述的预测方法,其特征是:以PDB(Protein Data Bank)数据库为基础,整理出蛋白互作面数据库,从而对SNP引起的氨基酸突变是否发生在蛋白互作面上进行判断。
5.根据权利要求1所述的预测方法,其特征是:根据SNP引起的蛋白肽链残基的变异以及蛋白结构、功能和氨基酸序列相关的七类特征即:氨基酸频率(Amino acid frequency)、氨基酸理化性质(Amino acid physicochemical)、蛋白质结构信息(Protein structure)、位点特异性打分矩阵(Position Specific Scoring Matrix,PSSM)、氨基酸残基温度(Amino acid residue temperature)、蛋白质相互作用率(PPI ratio)以及位置权重矩阵BLOSUM62,基于SVM和集成学习方法判断SNP是否破坏蛋白互作。
CN201611255461.9A 2016-12-30 2016-12-30 一种基于多元数据预测dna突变影响蛋白互作的预测方法 Active CN106778065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611255461.9A CN106778065B (zh) 2016-12-30 2016-12-30 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611255461.9A CN106778065B (zh) 2016-12-30 2016-12-30 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Publications (2)

Publication Number Publication Date
CN106778065A true CN106778065A (zh) 2017-05-31
CN106778065B CN106778065B (zh) 2019-02-01

Family

ID=58954997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611255461.9A Active CN106778065B (zh) 2016-12-30 2016-12-30 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Country Status (1)

Country Link
CN (1) CN106778065B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301323A (zh) * 2017-08-14 2017-10-27 安徽医科大学第附属医院 一种与银屑病相关的分类模型的构建方法
CN107358064A (zh) * 2017-07-03 2017-11-17 苏州大学 预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法
CN107403074A (zh) * 2017-06-09 2017-11-28 天津市湖滨盘古基因科学发展有限公司 一种突变蛋白的检测方法及装置
CN107607723A (zh) * 2017-08-02 2018-01-19 兰州交通大学 一种基于随机投影集成分类的蛋白质间相互作用测定方法
CN108427867A (zh) * 2018-01-22 2018-08-21 中国科学院合肥物质科学研究院 一种基于灰色bp神经网络蛋白互作关系预测方法
CN109801672A (zh) * 2018-11-16 2019-05-24 天津大学 多元互信息和残基结合能量蛋白质间相互作用预测方法
CN110021357A (zh) * 2017-12-27 2019-07-16 安诺优达基因科技(北京)有限公司 模拟癌症基因组测序数据生成装置
CN110021343A (zh) * 2017-12-11 2019-07-16 中国科学院大连化学物理研究所 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法
CN111128300A (zh) * 2019-12-26 2020-05-08 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法
CN114155912A (zh) * 2022-02-09 2022-03-08 北京晶泰科技有限公司 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581727A (zh) * 2008-05-13 2009-11-18 复旦大学 一种高效检测体内蛋白相互作用的方法
CN101630346A (zh) * 2009-06-26 2010-01-20 上海大学 基于支持向量机的蛋白质与核酸相互作用在线预报方法
JP2010165230A (ja) * 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム
US20150012482A1 (en) * 2013-07-03 2015-01-08 Ali ALSANOUSI System and method for personalized biomedical information research analytics and knowledge discovery
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581727A (zh) * 2008-05-13 2009-11-18 复旦大学 一种高效检测体内蛋白相互作用的方法
JP2010165230A (ja) * 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム
CN101630346A (zh) * 2009-06-26 2010-01-20 上海大学 基于支持向量机的蛋白质与核酸相互作用在线预报方法
US20150012482A1 (en) * 2013-07-03 2015-01-08 Ali ALSANOUSI System and method for personalized biomedical information research analytics and knowledge discovery
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403074A (zh) * 2017-06-09 2017-11-28 天津市湖滨盘古基因科学发展有限公司 一种突变蛋白的检测方法及装置
CN107403074B (zh) * 2017-06-09 2018-05-29 天津市湖滨盘古基因科学发展有限公司 一种突变蛋白的检测方法及装置
CN107358064A (zh) * 2017-07-03 2017-11-17 苏州大学 预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法
CN107607723A (zh) * 2017-08-02 2018-01-19 兰州交通大学 一种基于随机投影集成分类的蛋白质间相互作用测定方法
CN107301323A (zh) * 2017-08-14 2017-10-27 安徽医科大学第附属医院 一种与银屑病相关的分类模型的构建方法
CN107301323B (zh) * 2017-08-14 2020-11-03 安徽医科大学第一附属医院 一种与银屑病相关的分类模型的构建方法
CN110021343A (zh) * 2017-12-11 2019-07-16 中国科学院大连化学物理研究所 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法
CN110021343B (zh) * 2017-12-11 2023-05-12 中国科学院大连化学物理研究所 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法
CN110021357B (zh) * 2017-12-27 2021-06-04 浙江安诺优达生物科技有限公司 模拟癌症基因组测序数据生成装置
CN110021357A (zh) * 2017-12-27 2019-07-16 安诺优达基因科技(北京)有限公司 模拟癌症基因组测序数据生成装置
CN108427867A (zh) * 2018-01-22 2018-08-21 中国科学院合肥物质科学研究院 一种基于灰色bp神经网络蛋白互作关系预测方法
CN109801672A (zh) * 2018-11-16 2019-05-24 天津大学 多元互信息和残基结合能量蛋白质间相互作用预测方法
CN111128300B (zh) * 2019-12-26 2023-03-24 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法
CN111128300A (zh) * 2019-12-26 2020-05-08 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法
CN114155912A (zh) * 2022-02-09 2022-03-08 北京晶泰科技有限公司 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Also Published As

Publication number Publication date
CN106778065B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN106778065A (zh) 一种基于多元数据预测dna突变影响蛋白互作的预测方法
Rasmussen et al. A Bayesian approach for fast and accurate gene tree reconstruction
Wang et al. Predicting the impacts of mutations on protein-ligand binding affinity based on molecular dynamics simulations and machine learning methods
Zhang et al. TOUCHSTONE II: a new approach to ab initio protein structure prediction
Stahl et al. EPSILON-CP: using deep learning to combine information from multiple sources for protein contact prediction
WO2006005024A1 (en) Molecular property modeling using ranking
Gattani et al. StackCBPred: A stacking based prediction of protein-carbohydrate binding sites from sequence
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
Zangooei et al. PSSP with dynamic weighted kernel fusion based on SVM-PHGS
Livi et al. Characterization of graphs for protein structure modeling and recognition of solubility
CN108875310A (zh) Dna结合蛋白序列信息特征提取与分类方法及装置
Harada et al. Efficient conformational sampling of proteins based on a multi-dimensional TaBoo SeArch algorithm: An application to folding of chignolin in explicit solvent
US20130046482A1 (en) System and method for associating a moduli space with a molecule
Fu et al. Simulate time-integrated coarse-grained molecular dynamics with multi-scale graph networks
Liu et al. Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle
Jing et al. Protein inter-residue contacts prediction: methods, performances and applications
Fang et al. The intrinsic geometric structure of protein-protein interaction networks for protein interaction prediction
Wang et al. MUfoldQA_G: High-accuracy protein model QA via retraining and transformation
Smith et al. Steiner minimal trees, twist angles, and the protein folding problem
Howe et al. Protein residue contact prediction using support vector machine
Zhang et al. Towards fine-scale population stratification modeling based on kernel principal component analysis and random forest
Ruffolo et al. MUFold-Contact and TPCref: New Methods for Protein Structure Contact Prediction and Refinement
Pozzati et al. Improved protein docking by predicted interface residues
Vassura et al. A graph theoretic approach to protein structure selection
Du et al. From Interatomic Distances to Protein Tertiary Structures with a Deep Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant