CN115862747B - 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 - Google Patents
一种序列-结构-功能耦合的蛋白质预训练模型构建方法 Download PDFInfo
- Publication number
- CN115862747B CN115862747B CN202310167150.0A CN202310167150A CN115862747B CN 115862747 B CN115862747 B CN 115862747B CN 202310167150 A CN202310167150 A CN 202310167150A CN 115862747 B CN115862747 B CN 115862747B
- Authority
- CN
- China
- Prior art keywords
- protein
- amino acid
- sequence
- graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 229
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 226
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 title claims abstract description 25
- 230000008878 coupling Effects 0.000 title claims abstract description 18
- 238000010168 coupling process Methods 0.000 title claims abstract description 18
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 18
- 102100029212 Putative tetratricopeptide repeat protein 41 Human genes 0.000 claims abstract 7
- 150000001413 amino acids Chemical class 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 31
- 125000000539 amino acid group Chemical group 0.000 claims description 20
- 125000004429 atom Chemical group 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 125000004432 carbon atom Chemical group C* 0.000 claims description 6
- 125000004433 nitrogen atom Chemical group N* 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 230000004879 molecular function Effects 0.000 description 3
- 230000004853 protein function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012772 sequence design Methods 0.000 description 2
- 230000033616 DNA repair Effects 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000005411 Van der Waals force Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 102000037865 fusion proteins Human genes 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种序列‑结构‑功能耦合的蛋白质预训练模型构建方法,包括:以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO‑Structure知识图谱;基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码框架,对GO‑Structure知识图谱进行训练,获得训练好的蛋白质编码器。通过该方法可以实现在知识图谱上对“序列‑结构‑功能”这一耦合关系进行特征学习。
Description
技术领域
本发明属于机器学习、蛋白质工程技术领域,特别是一种序列-结构-功能耦合的蛋白质预训练模型构建方法。
背景技术
机器学习要学习复杂的输入-输出映射关系。大多数机器学习方法是通过对大量数据的学习,得到一个分类式或生成式模型,使得模型能够对从未见过的样本进行正确分类或生成出数据集中不存在的新样本。无论是分类式模型或是生成式模型,都依赖于对样本特征的提取。特征提取质量的高低决定了模型性能的优劣:如果模型能够提取到样本中针对当前任务的有效特征,则可以很容易训练分类器或生成器,从而达到理想的性能。因此,当下的很多机器学习方法都将注意力集中在特征提取中。
蛋白质是生物体中执行生物功能的重要生物机器,对蛋白质进行研究可以有效地了解生物体生长、凋亡、疾病等过程并对这些过程进行人为的调节。蛋白质是由氨基酸序列构成,氨基酸序列中的氨基酸通过共价键、氢键、范德华力等相互作用使得蛋白质具有稳定结构,而不同的蛋白质结构就决定了蛋白质多样的功能。因此蛋白质的序列决定结构,结构决定功能,“序列-结构-功能”这三者的关系相互耦合。随着结构生物学的发展,越来越多的蛋白质结构得以解析。PDB(Protein Data Bank,蛋白质数据库)中收集了海量的蛋白质解析结构,可供研究者们利用。有了大量的蛋白质结构数据集之后,现有技术中开发了AlphaFold2模型,其能够准确地从蛋白质序列预测蛋白质三维结构,这些结构预测的准确性已经可以达到学界认可的水平。
随着机器学习和蛋白质工程的发展,针对蛋白质的机器学习方法已经越来受到学者们的青睐。这类方法可以应用到蛋白质工程多个方面:上述的AlphaFold2模型是从蛋白质序列预测蛋白质的三维结构、以蛋白质序列为输入预测蛋白质的性质及功能、设计具有特殊性质的蛋白质的序列等。
通过上述内容可知,现有的蛋白质机器学习方法,主要是对蛋白质的序列、结构、序列-结构、序列-功能、共进化信息进行特征提取,没有涉及对蛋白质的耦合关系“序列-结构-功能”同时进行特征提取。此外,已经存在各种各样的生物医药知识图谱,但是现有的知识图谱没有表现出蛋白质的“序列-结构-功能”关系。且当前机器学习方法多用于生物医药知识图谱内的连接预测,鲜有模型利用在知识图谱中学习到的知识去做外延性任务。
因此,如何在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习,并将学习到的特征提取方法应用到外延性的下游任务中,成为当前研究的关键问题。
发明内容
鉴于上述问题,本发明提供一种至少解决上述部分技术问题的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,通过该方法可以实现在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习。
本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,包括:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器。
进一步地,还包括:
S3、通过所述训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
进一步地,所述S1具体包括:
S11、从UniProtKB蛋白质数据库中获取与GO术语有关的蛋白质编号和蛋白质序列;将所述与GO术语有关的蛋白质编号和蛋白质序列补充到GO生物知识图谱中,并与对应的GO术语建立连接关系;
S12、对于所述GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将所述三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱。
进一步地,所述S12还包括:
对于所述GO生物知识图谱中的每一个蛋白质,如果所述PDB蛋白质结构数据库中没有对应的三维结构,则通过AlphaFold2模型依据序列,对所述GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱。
进一步地,所述GO-Structure知识图谱包括GO节点和蛋白质节点;
所述GO节点包括GO术语、GO编号、术语描述和连接关系;
所述连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系;
所述蛋白质节点包含蛋白质编号、蛋白质序列和蛋白质三维结构。
进一步地,所述S2具体包括:
S21、采用GNN蛋白质编码器,对所述蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;
S22、采用BERT文本编辑器对所有GO节点中拼接后的GO术语和术语描述进行编码,生成GO特征向量;
采用BERT文本编辑器对所有GO节点中的连接关系进行编码,生成第一关系特征向量和第二关系特征向量;
S23、根据所述GNN蛋白质编码器的输出特征、GO特征向量、第一关系特征向量和第二关系特征向量,采用基于TransH的知识图谱编码框架对所述GNN蛋白质编码器和BERT文本编辑器进行优化,直到获得训练好的蛋白质编码器。
进一步地,所述S21具体包括:
S211、获取所述GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;
S212、根据所述蛋白质序列和蛋白质三维结构,将每个氨基酸残基视为图结构中的一个氨基酸节点,构建蛋白质的图结构;
S213、定义图结构中的节点特征和边特征;
S214、基于所述节点特征和边特征,循环更新图神经网络,直至获得每一个氨基酸节点的隐藏状态;
S215、对所有氨基酸节点的隐藏状态取平均值,获得GNN蛋白质编码器的输出特征。
进一步地,所述S212包括:
将每个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;
对于每个氨基酸节点,将与其距离最近的6个氨基酸节点也视为其相邻节点,将该氨基酸节点和与其距离最近的6个氨基酸节点相连接。
进一步地,所述S213包括:
利用图结构中的结构信息,基于空间几何求得蛋白质主链上每一个氨基酸节点位置的扭转角;对所述扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;
计算两个相邻的氨基酸节点的欧氏距离,并将所述欧氏距离作为图结构中的边特征。
进一步地,基于TransH的知识图谱编码框架的损失函数表示为:
其中,表示对GO-Structure知识图谱中所有的三元组进行遍历;/>表示Sigmoid函数,用于将函数值映射到(0,1);/>表示预设的松弛变量;/>表示真实存在的三元组头实体经过超平面变换后的编码;/>表示真实存在的三元组尾实体经过超平面变换后的编码;/>表示预设的伪三元组尾实体经过超平面变换后的编码;/>表示关系r所对应的第一关系特征向量;K表示构造的伪三元组的数量。
与现有技术相比,本发明记载的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,具有如下有益效果:
本发明构造了一个蛋白质编码器用作蛋白质的特征提取,其在训练过程中充分融入了蛋白质的“序列-结构-功能”耦合关系,符合生物学概念“蛋白质的序列决定结构,结构决定功能”。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的序列-结构-功能耦合的蛋白质预训练模型生成方法流程示意图。
图2为本发明实施例提供的GO-Structure知识图谱示意图。
图3为本发明实施例提供的氨基酸序列示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1所示,本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,具体包括如下步骤:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器;
S3、通过训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
下面分别对上述各个步骤进行详细的说明。
在上述步骤S1中,GO-Structure知识图谱是一个包含生物知识、蛋白质序列及结构的数据,其以GO(Gene Ontology,基因本体论)生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,辅以AlphaFold2模型来预测三维结构。其中:
GO生物知识图谱,也称GO术语逻辑网络,是将当前学界所掌握生物知识整理成逻辑网络的形式,分别阐释了分子功能、生物过程和细胞组分三个层面多个术语之间的逻辑关系;其中:分子功能是描述基因产物在分子层面的功能活动,例如“转运活性”;生物过程是在生物体中进行的过程,比分子功能更宏观,一般由多种分子活动完成,例如“DNA修复”;细胞组分是与细胞结构相关的位置,基因产物在其中发挥功能,例如“线粒体”。GO生物知识图谱能够描述不同术语之间的联系。例如图2包含了GO中细胞组分的部分结构,其表示如下关系:plasma membrane(细胞质膜)是一种membrane(膜),也是cell periphery(细胞边界)的一部分;membrane是一种cellular anatomical entity(细胞解剖实体),cellperiphery是一种cellular anatomical entity;cellular anatomical entity是一种cellular component(细胞组分)。
UniProtKB蛋白质数据库中包含了大量人类已知的蛋白质,且能够标注出蛋白质序列信息及与GO术语的对应关系,从而在功能层面对蛋白质进行描述;如图2所示,Q14028蛋白与GO属于具有关系Is_a和Is_active_in。因此,本发明实施例将UniProtKB中与GO术语中有关的蛋白质编号和蛋白质序列记录下来,并将这些蛋白质编号和蛋白质序列信息补充到GO生物知识图谱中,并于对应的GO术语建立连接关系。
PDB蛋白质结构数据库中包含了大量具有解析结构的蛋白质,UniProtKB中的部分蛋白质可以从PDB蛋白质结构数据库中获取;因此,在本发明实施例中,对于GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将三维结构附加到GO生物知识图谱中,构建GO-Structure知识图谱;如果PDB蛋白质结构数据库中没有对应的蛋白质结构,则通过AlphaFold2模型依据序列,对GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到GO生物知识图谱中,构建GO-Structure知识图谱。
由此完成了GO-Structure知识图谱的构建(如图2),该GO-Structure知识图谱中包含GO节点和蛋白质节点;其中,GO节点包含GO术语(例如:membrane)、GO编号(例如:GO:0016020)、术语描述(例如:Membrane is …)和连接关系;该连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系。蛋白质节点包含蛋白质编号(例如:Q14028)、蛋白质序列和蛋白质三维结构。值得说明的是,将蛋白质与GO相联系,能够借助GO对蛋白质的功能及蛋白质所在的位置进行描述。
在上述步骤S2中,基于GNN(Graph Neural Network)的蛋白质编码器进行学习,同时将BERT文本编辑器作为辅助模型,将TransH作为知识图谱编码的框架;特征学习输入的数据是GO-Structure知识图谱,最后呈现出一个训练好的蛋白质编码器;该步骤S2具体包括以下内容:
S21、采用GNN蛋白质编码器,对蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;具体包括:
获取GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;其中,蛋白质序列(即氨基酸序列,以下不加以区分)由首尾顺次相连的氨基酸构成,可表示为;n表示蛋白质序列的长度;/>表示第i个氨基酸的类型;共有20种氨基酸类型。图3表示的是蛋白质序列的主干,图3框内表示一个氨基酸残基,一个氨基酸残基主干上从左到右分别为C原子、/>原子和N原子,每一个原子都对应有一个三维坐标。因此,一个蛋白质有若干个氨基酸残基,每一个氨基酸残基上的C原子、/>原子和N原子都有对应的三维坐标,以此可以表示蛋白质的三维结构;上述氨基酸残基实际上就是不完整的氨基酸。
在获得蛋白质的序列和三维结构之后,开始建立蛋白质的图结构。将每一个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;用原子的三维坐标来代表其所对应的氨基酸节点的空间位置;对于每一个氨基酸而言,与其距离最近的6个氨基酸也被视为其相邻节点,因此,将该氨基酸和与其距离最近的6个氨基酸相连接。
完成图结构的建立后,利用结构信息和空间几何知识,可以求得蛋白质主链上每一个氨基酸位置的扭转角、/>和/>(如图3);对该扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;该节点特征表示为:
其中,下标i表示第i个氨基酸节点。
其中,和/>分别表示上一次更新后的第i个氨基酸节点和第j个氨基酸节点的隐藏状态,/>;/>表示与氨基酸类型相关的编码;/>表示边特征;/>表示两层全连接网络;/>表示第i个节点更新(l+1)次后的隐藏状态;
对图网络更新L次后,可以得到每一个氨基酸节点的隐藏状态,表示为:
S22、BERT是当下较为流行的语言模型,其由多个Transformer模块堆叠而成,能够将一系列文本输入转化为编码输出;GO-Structure知识图谱里的每一个GO节点,不仅具有GO术语,还有相应的术语描述。GO术语和属于描述都属于文本,将此二者拼接之后输入BERT进行编码,可以获得GO节点的特征,将所有GO节点的特征记作GO特征向量;
对于GO-Structure知识图谱中节点之间的连接关系(例如图2中的Is_a,Is_active_in),也输入到BERT文本编辑器中,获得两个关系特征和/>,编辑完成后获得第一关系特征向量第二关系特征向量;
S23、在知识图谱中,每一对连接关系都可以表示成一个三元组(hhead,r,htail),其中hhead和htail分别表示头和尾两个实体,表示连接关系。实体hhead和htail可分别编码成(黑体表示向量),关系/>可编码成两个向量/>和/>。对于GO-Structure知识图谱,使用GNN蛋白质编码器对蛋白质进行编码,使用BERT文本编辑器对GO节点和连接关系进行编码。在这一部分为了便于表示,将蛋白质编码和GO节点编码都视作实体编码,不做区分;只以/>和/>区分头尾两个实体编码。/>用作超平面变换,/>用作距离描述。分别对头尾两个实体向量进行超平面变换:
因此,基于TransH的知识图谱编码框架的损失函数可表示为:
其中,表示对GO-Structure知识图谱中所有的三元组进行遍历;/>表示Sigmoid函数,用于将函数值映射到(0,1);/>表示预设的松弛变量;/>表示真实存在的三元组头实体经过超平面变换后的编码;/>表示真实存在的三元组尾实体经过超平面变换后的编码;/>表示预设的伪三元组尾实体经过超平面变换后的编码;/>表示关系r所对应的第一关系特征向量;K表示构造的伪三元组的数量。
以最小化损失函数为目标进行模型的训练,最后得到训练好的蛋白质编码器,在具体使用过程中,将蛋白质的序列和结构输入到该训练好的蛋白质编码器中,便可输出输出蛋白质对应的特征向量。由于在上述训练过程蛋白质编码器学习了知识图谱中的蛋白质功能信息,由此完成“序列-结构-功能”的特征学习。
在上述步骤S3中,已经训练好的蛋白质编码器能够从蛋白质序列和结构中提取出有效特征,可应用于下游任务(蛋白质稳定性预测、功能预测、互作预测、同源性预测等)。通过给该训练好的蛋白质编码器增加一个针对特定任务的模块,再依据数据集对给定任务进行微调,即可应用到下游任务中。
接下来通过一个具体的实施例,来进一步说明如何将本发明实施例所提供的方法应用到下游任务中。
蛋白质稳定性预测。其可被视作一个回归问题,即给定蛋白质的序列和结构作为输入,输出一个连续的稳定性系数。此时可在蛋白质编码器提取蛋白质特征之后,使用MLP(Multi-Layer Perceptron,多层感知机)将高维特征向量映射到一个连续数值,即可实现回归。
蛋白质功能预测和蛋白质同源性预测。这两个问题本质上都是多分类问题,即给定蛋白质的序列和结构作为输入,输出蛋白质可能属于的类别。此时可在蛋白质编码器提取蛋白质特征之后,使用MLP将高维特征向量映射到一个k维向量(k为类别数),再用函数对此向量进行处理,映射到独热编码中即可实现多分类。
蛋白质-蛋白质互作预测。此问题预测两个蛋白质是否会发生相互作用,输入是两个蛋白质的序列和结构,输出是标签0或1。对于两个输入的蛋白质,使用蛋白质编码器对二者分别编码得到两个特征向量,将特征向量进行拼接,再经过一个MLP将高维特征向量映射到一维,使用函数对此向量进行处理进行分类。
蛋白质序列设计。此问题即为蛋白质的序列生成,在生成序列的同时预测蛋白质的结构(即每一个氨基酸残基的坐标)。假设待生成序列的长度给定,初始化时将所有氨基酸类型设置成“空”类别,坐标初始化在原点。每预测一个氨基酸残基的类型及坐标,都需要经过一次蛋白质编码和预测模块(例如MLP),直到预测结束。
本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,首先建立GO-Structure知识图谱,该GO-Structure知识图谱涉及蛋白质的序列、结构和功能;其次基于GNN构造了蛋白质编码器,使用BERT作为文本编码器,在知识图谱上采用TransH的训练框架,训练了一个融合蛋白质 “序列-结构-功能”耦合关系的蛋白质编码器;最后将蛋白质编码器所提取到的特征应用到多个下游任务中,增强模型的表现。
现有的知识图谱很少能够体现蛋白质的“序列-结构-功能”关系;现有的机器学习方法鲜有对蛋白质的“序列-结构-功能”关系进行建模;现有的知识图谱学习方法常常局限在知识图谱内的推理,没有将在知识图谱中所学到的知识进行外延性应用。本发明分别针对这三个现存问题,构建了GO-Structure知识图谱、训练蛋白质编码器学习蛋白质的“序列-结构-功能”关系、将蛋白质编码器应用到具有外延性的下游任务中,例如蛋白质稳定性预测、蛋白质功能预测、蛋白质序列设计、蛋白质互作预测和蛋白质同源性预测等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,包括以下步骤:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器;
所述S1具体包括:
S11、从UniProtKB蛋白质数据库中获取与GO术语有关的蛋白质编号和蛋白质序列;将所述与GO术语有关的蛋白质编号和蛋白质序列补充到GO生物知识图谱中,并与对应的GO术语建立连接关系;
S12、对于所述GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将所述三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱;
所述S12还包括:
对于所述GO生物知识图谱中的每一个蛋白质,如果所述PDB蛋白质结构数据库中没有对应的三维结构,则通过AlphaFold2模型依据序列,对所述GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱;
所述GO-Structure知识图谱包括GO节点和蛋白质节点;
所述GO节点包括GO术语、GO编号、术语描述和连接关系;
所述连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系;
所述蛋白质节点包含蛋白质编号、蛋白质序列和蛋白质三维结构;
所述S2具体包括:
S21、采用GNN蛋白质编码器,对所述蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;
S22、采用BERT文本编辑器对所有GO节点中拼接后的GO术语和术语描述进行编码,生成GO特征向量;
采用BERT文本编辑器对所有GO节点中的连接关系进行编码,生成第一关系特征向量和第二关系特征向量;
S23、根据所述GNN蛋白质编码器的输出特征、GO特征向量、第一关系特征向量和第二关系特征向量,采用基于TransH的知识图谱编码框架对所述GNN蛋白质编码器和BERT文本编辑器进行优化,直到获得训练好的蛋白质编码器。
2.如权利要求1所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,还包括:
S3、通过所述训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
3.如权利要求1所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S21具体包括:
S211、获取所述GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;
每个蛋白质节点包括多个氨基酸残基;每个氨基酸残基包括C原子、Cα原子和N原子;所述C原子、Cα原子和N原子均有对应的三维坐标,以此来表示蛋白质三维结构;
所述蛋白质序列表示为(s1,s2,...,sn);其中,n表示蛋白质序列的长度;Si表示第i个氨基酸残基的类型;每个氨基酸残基的空间位置均由对应的Cα原子的三维坐标来表示;
S212、根据所述蛋白质序列和蛋白质三维结构,将每个氨基酸残基视为图结构中的一个氨基酸节点,构建蛋白质的图结构;
S213、定义图结构中的节点特征和边特征;
S214、基于所述节点特征和边特征,循环更新图神经网络,直至获得每一个氨基酸节点的隐藏状态;
S215、对所有氨基酸节点的隐藏状态取平均值,获得GNN蛋白质编码器的输出特征。
4.如权利要求3所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S212包括:
将每个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;
对于每个氨基酸节点,将与其距离最近的6个氨基酸节点也视为其相邻节点,将该氨基酸节点和与其距离最近的6个氨基酸节点相连接。
5.如权利要求3所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S213包括:
利用图结构中的结构信息,基于空间几何求得蛋白质主链上每一个氨基酸节点位置的扭转角;对所述扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;
计算两个相邻的氨基酸节点的欧氏距离,并将所述欧氏距离作为图结构中的边特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310167150.0A CN115862747B (zh) | 2023-02-27 | 2023-02-27 | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310167150.0A CN115862747B (zh) | 2023-02-27 | 2023-02-27 | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115862747A CN115862747A (zh) | 2023-03-28 |
CN115862747B true CN115862747B (zh) | 2023-06-30 |
Family
ID=85658975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310167150.0A Active CN115862747B (zh) | 2023-02-27 | 2023-02-27 | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862747B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206690B (zh) * | 2023-05-04 | 2023-08-08 | 山东大学齐鲁医院 | 一种抗菌肽生成和识别方法及系统 |
CN116935952B (zh) * | 2023-09-18 | 2023-12-01 | 浙江大学杭州国际科创中心 | 基于图神经网络训练蛋白质预测模型的方法及装置 |
CN118072835B (zh) * | 2024-04-19 | 2024-09-17 | 宁波甬恒瑶瑶智能科技有限公司 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220392625A1 (en) * | 2019-10-30 | 2022-12-08 | Lululemon Athletica Canada Inc. | Method and system for an interface to provide activity recommendations |
CN114333980B (zh) * | 2021-08-27 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114333982B (zh) * | 2021-11-26 | 2023-09-26 | 北京百度网讯科技有限公司 | 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置 |
-
2023
- 2023-02-27 CN CN202310167150.0A patent/CN115862747B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115862747A (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115862747B (zh) | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 | |
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
Zhang et al. | Improved deep hashing with soft pairwise similarity for multi-label image retrieval | |
Han et al. | A survey on metaheuristic optimization for random single-hidden layer feedforward neural network | |
Liang et al. | Symbolic graph reasoning meets convolutions | |
Gong et al. | A multiobjective sparse feature learning model for deep neural networks | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN111461157B (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN117524353B (zh) | 一种基于多维度分子信息的分子大模型、构建方法及应用 | |
CN112949929B (zh) | 一种基于协同嵌入增强题目表示的知识追踪方法及系统 | |
CN112270950A (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
Geete et al. | Robust transcription factor binding site prediction using deep neural networks | |
CN118335202B (zh) | 一种基于生成式神经网络模型设计抗体结构和序列的方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN117321692A (zh) | 用于从分子图生成任务相关的结构嵌入的方法和系统 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN116386733A (zh) | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 | |
Sathe et al. | Gene expression and protein function: A survey of deep learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |