CN117095753A - 一种蛋白质稳定性预测方法及网络app - Google Patents

一种蛋白质稳定性预测方法及网络app Download PDF

Info

Publication number
CN117095753A
CN117095753A CN202311036283.0A CN202311036283A CN117095753A CN 117095753 A CN117095753 A CN 117095753A CN 202311036283 A CN202311036283 A CN 202311036283A CN 117095753 A CN117095753 A CN 117095753A
Authority
CN
China
Prior art keywords
protein
neural network
graph
matrix
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311036283.0A
Other languages
English (en)
Inventor
王舒禹
唐洪舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN202311036283.0A priority Critical patent/CN117095753A/zh
Publication of CN117095753A publication Critical patent/CN117095753A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种蛋白质稳定性预测方法及网络APP,涉及生物信息技术领域。首先去除未突变点位的蛋白质结构信息,然后经过特征提取与传递,最后经过图神经网络与贝叶斯神经网络对特征信息进行提取与分析,能够实现蛋白质突变吉布斯自由能变化的准确预测,并且用户可以通过网页服务进行预测。本发明的方法通过贝叶斯神经网络与图神经网络的结合,降低了过拟合对模型预测效果的影响,能够实现蛋白质稳定性的准确预测,模型搭建简单,训练时间成本低,预测结果准确,非常有利于推广和使用。本发明设计的网络APP,能够快速准确的完成用户提交的蛋白质稳定性变化预测任务。

Description

一种蛋白质稳定性预测方法及网络APP
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于图神经网络和贝叶斯神经网络的蛋白质稳定性预测方法及网络APP。
背景技术
研究蛋白质折叠的一个关键方法是测量其热力学性质。在突变状态下,折叠过程可能会受到干扰,导致吉布斯自由能的变化(ΔΔG)。由于抗体药物通常需要很高的热稳定性,因此在制药工业中需要了解这种改变。此外,这一过程对于理解药物靶点基因组变异是如何对治疗药物产生耐药性至关重要。
为了准确预测突变后蛋白质的稳定性变化,各种计算方法已被广泛应用。有基于各种物理化学假设的方法,这种方法具有较好的性能。另一个分支是利用机器学习进行快速预测,利用支持向量机(SVM)、梯度提升、人工神经网络(ANN)以及它们的结合等技术。
然而,一些研究指出了基于机器学习的方法有显著缺点。他们预测不稳定突变多于稳定突变,而预测结果与实验结果之间看似高度的线性相关可能不会在稳定突变上表现出来。预测蛋白质稳定性变化的一个难题是,当有限的实验测试集可用时,如何进一步提高深度学习模型的表达能力。图神经网络(GNN)是从图数据中提取信息的有力工具。图卷积网络应用图傅里叶域上的谱卷积来聚集邻域表示,这样就可用于特征学习。在基于机器学习的预测中,过拟合是另一个需要考虑的关键问题。当只有有限的实验数据可用时,很有可能产生过拟合问题,并且即使是训练良好的模型,大多数并不能很好地推广到其他数据集上。因此,预测蛋白质稳定性变化要求模型足够灵活,以捕获数据的所有属性。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种蛋白质稳定性预测方法及网络APP,首先去除未突变点位的蛋白质结构信息,然后经过特征提取与传递,最后经过图神经网络与贝叶斯神经网络对特征信息进行提取与分析,能够实现蛋白质突变吉布斯自由能变化的准确预测,并且用户可以通过网页服务进行预测。
为解决上述技术问题,本发明所采取的技术方案是:
一方面,本发明提供一种蛋白质稳定性预测方法,包括以下内容:
通过python脚本对蛋白质突变点位及其相邻一个点位的蛋白质结构信息进行批量提取,仅保留突变及其相邻点位的氨基酸残基信息;
将蛋白质元素类型信息提取,并进行蛋白质元素信息的编码与嵌入,并且将蛋白质元素信息输入到图神经网络与贝叶斯神经网络结合的图贝叶斯神经网络中;
将蛋白质中的原子作为图神经网络的节点,原子间的连接关系作为图神经网络的边,为蛋白质构造一个无向图,分别生成特征矩阵与邻接矩阵;
在图贝叶斯神经网络进行特征提取与分析后,将蛋白质的空间位置信息与经过图贝叶斯神经网络处理后的特征矩阵进行拼接,得到一个带有蛋白质位置信息的新蛋白质特征矩阵输入到全连接层;
基于上一步得到的经过图贝叶斯神经网络处理后的特征矩阵、邻接矩阵和蛋白质位置信息矩阵,利用图贝叶斯神经网络与全连接神经网络,得到蛋白质稳定性的预测结果。
进一步地,在图贝叶斯神经网络中对蛋白质元素类型信息提取得到的蛋白质特征包括:原子类型、相邻原子、相邻氢键、隐含价、芳香键以及每个原子的位置信息。
进一步地,所述图神经网络的图卷积层采用基于残差连接的图卷积网络。
进一步地,在图神经网络层和全连接层使用贝叶斯方法,得到一个包含多个模型分布的概率模型。
进一步地,特征矩阵、邻接矩阵、蛋白质位置信息矩阵在图贝叶斯神经网络中进行消息传递时,即每一层图贝叶斯神经网络层对特征矩阵、邻接矩阵、蛋白质位置信息矩阵进行处理的过程中,使用变分推理,即用变分参数θ参数化的可处理分布qθ(w)来逼近后验,将Kullback-Leibler分歧保持在最小:
其中,qθ(w)表示变分参数θ参数化的可处理分布,p(w|X,Y)是模型的后验分布。
进一步地,模型的后验分布p(w|X,Y)用高斯分布的乘积近似。
另一方面,本发明还提供一种蛋白质稳定性预测网络APP,用于实现上述的方法,包括蛋白质信息修剪模块、数据读入模块、特征编码模块和预测模块;
蛋白质信息修剪模块,用于对蛋白质突变位置结构信息进行提取,去除对无关的蛋白质信息;
数据读入模块,用于读取蛋白质信息作为图神经网络的输入,包括特征矩阵、邻接矩阵、蛋白质位置信息矩阵;
特征编码模块,用于对数据读入模块的三种矩阵进行编码与嵌入,生成特征矩阵和邻接矩阵;
预测模块,用于利用图神经网络和贝叶斯网络得到蛋白质突变稳定性变化的预测结果并输出。
进一步地,所述网络APP由服务器挂载并执行蛋白质突变吉布斯自由能变化预测任务。
采用上述技术方案所产生的有益效果在于:本发明提供的蛋白质稳定性预测方法及网络APP,该方法模型搭建简单,训练时间成本低,预测结果准确,非常有利于推广和使用。本发明对蛋白质结构信息进行了提取与处理,极大的减少了模型的训练与预测时间,降低了蛋白质稳定性预测任务的时间成本与计算成本。本发明设计的图贝叶斯神经网络网络,能够有效的将蛋白质信息进行充分的提取,保证信息利用的全面性,同时能有效的降低过拟合对模型预测效果的影响。本发明设计的图贝叶斯神经网络,在预测蛋白质突变时,对整个预测任务的不确定性进行了预测,并且分析了模型的噪声和数据集本身的噪声对预测任务的影响。本发明设计的网络APP,能够快速准确的完成用户提交的蛋白质稳定性变化预测任务。
附图说明
图1为本发明实施例提供的蛋白质稳定性预测方法示意图;
图2为本发明实施例提供的在Q3421数据集上的十倍交叉验证结果图;
图3为本发明实施例提供的在S2648数据集上的十倍交叉验证结果图;
图4为本发明实施例提供的在测试集S611、S350、Myoblobin和S669数据集上的预测效果图;
图5为本发明实施例提供的Bayestab服务器数据接收发送示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实例提供一种基于图神经网络和贝叶斯神经网络的蛋白质稳定性预测方法及网页服务,通过图神经网络与贝叶斯网络的结合,读取提取后的蛋白质突变点位及其相邻氨基酸残基的结构信息与位置信息,对蛋白质稳定性进行预测。具体方法如下所述。
给定一个蛋白质单点突变前后的蛋白质结果信息,确定蛋白质突变点位与突变种类,通过python脚本批量提取蛋白质突变点位及其相邻一个点位的蛋白质结构信息。
通过rdkit蛋白质特征提取工具,提取蛋白质的结构信息,将蛋白质信息总的原子类型、相邻原子类型、相邻氢键、隐含价和芳香键信息进行特征编码,从而生成长度为30维的特征向量。
通过确定蛋白质中的原子相邻关系,生成维度为原子数的邻接矩阵。
生成蛋白质位置矩阵。
将生成的特征矩阵、邻接矩阵和位置矩阵嵌入到图贝叶斯神经网络中。其中图神经网络层共四层,全连接层共四层。在图神经网络层中,消息传递机制如下所示:
H(l+1)=Leaky_relu(W(l)AH(l))
其中,矩阵是一个可学习的权重矩阵,邻接矩阵A的维度为/>H是特征矩阵。Leaky_relu是图神经网络层的激活函数。这个公式是一个简化的消息传递过程,每个原子从其相邻原子和相连接的键收集局部的蛋白质结构信息,然后更新特征矩阵。通过原子之间的信息共享,可以提取全局特征。通过这种方式,图神经网络能够隐式地从蛋白质结构中学习要预测的属性与特征。
在评估模型的预测方差时,本实施例将不确定性分为认知不确定性和随机不确定性。认知不确定性是由数据集噪声引起的,而随机不确定性是由模型预测的可变性引起的。预测方差计算如下:
其中,fwt(xt)是神经网络相对于输入xt的输出,T是预测的次数,diag表示对角矩阵。
网络APP应用的开发和部署:
a.设计用户界面:根据用户需求和交互流程,设计一个直观友好的用户界面,包括输入蛋白质序列和突变信息的输入框、预测按钮和结果展示区域。
b.构建后端服务:使用合适的后端开发框架,搭建一个服务器端应用程序,用于接收用户输入的蛋白质序列和突变信息,并调用深度学习模型进行预测。
c.部署网络应用:将开发好的网络应用部署到互联网上,确保用户可以通过浏览器访问并使用该应用。
深度学习模型的构建和训练:
a.数据集准备:收集具有已知突变和稳定性变化的蛋白质数据集,并进行预处理,包括蛋白质序列编码、结构信息提取等。
b.模型设计:基于图神经网络和贝叶斯神经网络的结构,设计一个端到端的深度学习模型,用于预测蛋白质突变后的稳定性变化。可以参考ProS-GNN和BayeStab的模型结构进行设计。
c.模型训练:使用准备好的数据集,将模型参数初始化,并通过反向传播算法和优化器对模型进行训练,使其能够准确预测蛋白质稳定性变化。
d.模型评估:使用一部分数据集作为验证集,评估训练好的模型在验证集上的性能,包括预测准确性和泛化性能。
预测结果的展示和分析:
a.结果可视化:将预测结果以直观的方式展示给用户,可以使用图表、曲线等形式展示蛋白质突变后的稳定性变化。
b.结果分析:提供对预测结果的进一步分析功能,例如突变位点的重要性分析、突变对蛋白质结构的影响分析等,以帮助用户更好地理解突变对蛋白质稳定性的影响。
系统优化和改进:
a.提升计算性能:优化深度学习模型的计算效率,使用GPU加速等技术,提高预测速度,以满足用户对快速预测的需求。
b.数据集更新:定期更新和扩充训练数据集,以提高模型的泛化能力和预测准确性。
c.用户反馈收集:与用户保持沟通,收集用户反馈和需求,根据用户的需求进行系统改进和优化本实施例的方法利用蛋白质的机构信息,把蛋白质中的原子看成图神经网络的节点,原子间的化学键看成图神经网络中的边,并将贝叶斯神经网络与图神经网络相结合,实现了蛋白质稳定性预测任务,极大的减少了该任务的预测与训练时间,并且实现了该预测任务中数据集与模型不确定的评估,并且本发明为蛋白质稳定性预测任务提供了网页服务。
图2是本发明实施例在Q3421数据集上进行十倍交叉验证的结果图。十倍交叉验证是一种常用的评估模型性能的方法,它将数据集分为10个子集,每次使用其中9个子集作为训练集,剩下的一个子集作为验证集,重复10次。图2展示了在这个过程中的模型性能指标,即相关系数、均方根误差。
图3是本发明实施例在S2648数据集上进行十倍交叉验证的结果图,展示了在S2648数据集上进行十倍交叉验证的模型性能结果。性能指标与图2相同,但是针对S2648数据集进行了验证。
图4展示了本发明实施例在测试集S611、S350、Myoblobin和S669数据集上的预测效果。这些数据集可能是用于评估模型在真实世界情况下的表现的。图4展示了模型对于这些数据集的预测结果。
蛋白质稳定性预测网络APP包括蛋白质信息修剪模块、数据读入模块、特征编码模块和预测模块.
蛋白质信息修剪模块,用于对蛋白质突变位置结构信息进行提取,去除对无关的蛋白质信息。数据读入模块,用于读取蛋白质信息作为图神经网络的输入,包括特征矩阵、邻接矩阵、蛋白质位置信息矩阵。特征编码模块,用于对数据读入模块的三种矩阵进行编码与嵌入,生成特征矩阵和邻接矩阵。预测模块,用于利用图神经网络和贝叶斯网络得到蛋白质突变稳定性变化的预测结果并输出。网络APP由服务器挂载并执行蛋白质突变吉布斯自由能变化预测任务。如图5所示,为Bayestab服务器数据接收发送示意图。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (8)

1.一种蛋白质稳定性预测方法,其特征在于:包括以下内容:
通过python脚本对蛋白质突变点位及其相邻一个点位的蛋白质结构信息进行批量提取,仅保留突变及其相邻点位的氨基酸残基信息;
将蛋白质元素类型信息提取,并进行蛋白质元素信息的编码与嵌入,并且将蛋白质元素信息输入到图神经网络与贝叶斯神经网络结合的图贝叶斯神经网络中;
将蛋白质中的原子作为图神经网络的节点,原子间的连接关系作为图神经网络的边,为蛋白质构造一个无向图,分别生成特征矩阵与邻接矩阵;
在图贝叶斯神经网络进行特征提取与分析后,将蛋白质的空间位置信息与经过图贝叶斯神经网络处理后的特征矩阵进行拼接,得到一个带有蛋白质位置信息的新蛋白质特征矩阵输入到全连接层;
基于上一步得到的经过图贝叶斯神经网络处理后的特征矩阵、邻接矩阵和蛋白质位置信息矩阵,利用图贝叶斯神经网络与全连接神经网络,得到蛋白质稳定性的预测结果。
2.根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:在所述图贝叶斯神经网络中对蛋白质元素类型信息提取得到的蛋白质特征包括:原子类型、相邻原子、相邻氢键、隐含价、芳香键以及每个原子的位置信息。
3.根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:所述图神经网络的图卷积层采用基于残差连接的图卷积网络。
4.根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:在图神经网络层和全连接层使用贝叶斯方法,得到一个包含多个模型分布的概率模型。
5.根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:所述特征矩阵、邻接矩阵、蛋白质位置信息矩阵在图贝叶斯神经网络中进行消息传递时,即每一层图贝叶斯神经网络层对特征矩阵、邻接矩阵、蛋白质位置信息矩阵进行处理的过程中,使用变分推理,即用变分参数θ参数化的可处理分布qθ(w)来逼近后验,将Kullback-Leibler分歧保持在最小,如下式:
其中,qθ(w)表示变分参数θ参数化的可处理分布,p(w|X,Y)是模型的后验分布。
6.根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:模型的后验分布p(w|X,Y)用高斯分布的乘积近似。
7.一种蛋白质稳定性预测网络APP,用于实现权利要求1所述的方法,其特征在于:包括蛋白质信息修剪模块、数据读入模块、特征编码模块和预测模块;
蛋白质信息修剪模块,用于对蛋白质突变位置结构信息进行提取,去除对无关的蛋白质信息;
数据读入模块,用于读取蛋白质信息作为图神经网络的输入,包括特征矩阵、邻接矩阵、蛋白质位置信息矩阵;
特征编码模块,用于对数据读入模块的三种矩阵进行编码与嵌入,生成特征矩阵和邻接矩阵;
预测模块,用于利用图神经网络和贝叶斯网络得到蛋白质突变稳定性变化的预测结果并输出。
8.根据权利要求7所述的蛋白质稳定性预测网络APP,其特征在于:所述网络APP由服务器挂载并执行蛋白质突变吉布斯自由能变化预测任务。
CN202311036283.0A 2023-08-17 2023-08-17 一种蛋白质稳定性预测方法及网络app Pending CN117095753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311036283.0A CN117095753A (zh) 2023-08-17 2023-08-17 一种蛋白质稳定性预测方法及网络app

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311036283.0A CN117095753A (zh) 2023-08-17 2023-08-17 一种蛋白质稳定性预测方法及网络app

Publications (1)

Publication Number Publication Date
CN117095753A true CN117095753A (zh) 2023-11-21

Family

ID=88780935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311036283.0A Pending CN117095753A (zh) 2023-08-17 2023-08-17 一种蛋白质稳定性预测方法及网络app

Country Status (1)

Country Link
CN (1) CN117095753A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672364A (zh) * 2023-12-19 2024-03-08 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672364A (zh) * 2023-12-19 2024-03-08 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质
CN117672364B (zh) * 2023-12-19 2024-05-14 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质

Similar Documents

Publication Publication Date Title
Chen et al. Physics-informed learning of governing equations from scarce data
Bellot et al. NetBenchmark: a bioconductor package for reproducible benchmarks of gene regulatory network inference
CN117095753A (zh) 一种蛋白质稳定性预测方法及网络app
Lee et al. MPdist-based missing data imputation for supporting big data analyses in IoT-based applications
JP2024500459A (ja) マルチ・レベル多目的自動機械学習
Turgut et al. A framework proposal for machine learning-driven agent-based models through a case study analysis
Lu et al. Rapid mechanical property prediction and de novo design of three-dimensional spider webs through graph and GraphPerceiver neural networks
Monroe et al. Learning efficient, collective Monte Carlo moves with variational autoencoders
Xu et al. Towards effective semantic annotation for mobile and edge services for Internet-of-Things ecosystems
Wang et al. Reconstruct high-resolution 3D genome structures for diverse cell-types using FLAMINGO
Pittman et al. Bayesian analysis of binary prediction tree models for retrospectively sampled outcomes
Papamarkou et al. Position paper: Challenges and opportunities in topological deep learning
CN113611354B (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
Kalemati et al. CapsNet-MHC predicts peptide-MHC class I binding based on capsule neural networks
WO2022146632A1 (en) Protein structure prediction
Ram et al. A markov-blanket-based model for gene regulatory network inference
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN117195731A (zh) 一种复杂系统动力学行为建模方法、系统及设备
Nakariyakul Suboptimal branch and bound algorithms for feature subset selection: A comparative study
CN112818658B (zh) 文本对分类模型的训练方法、分类方法、设备及存储介质
Thaler et al. JaxSGMC: Modular stochastic gradient MCMC in JAX
Panahi et al. Adaptable reservoir computing: A paradigm for model-free data-driven prediction of critical transitions in nonlinear dynamical systems
Loomis et al. Exploring predictive states via Cantor embeddings and Wasserstein distance
Lee et al. Latent Space-Based Likelihood Estimation Using a Single Observation for Bayesian Updating of a Nonlinear Hysteretic Model
Tan et al. Prediction of drug–protein interaction based on dual channel neural networks with attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination