CN115862747B - 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 - Google Patents

一种序列-结构-功能耦合的蛋白质预训练模型构建方法 Download PDF

Info

Publication number
CN115862747B
CN115862747B CN202310167150.0A CN202310167150A CN115862747B CN 115862747 B CN115862747 B CN 115862747B CN 202310167150 A CN202310167150 A CN 202310167150A CN 115862747 B CN115862747 B CN 115862747B
Authority
CN
China
Prior art keywords
protein
amino acid
sequence
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310167150.0A
Other languages
English (en)
Other versions
CN115862747A (zh
Inventor
邓岳
郭弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310167150.0A priority Critical patent/CN115862747B/zh
Publication of CN115862747A publication Critical patent/CN115862747A/zh
Application granted granted Critical
Publication of CN115862747B publication Critical patent/CN115862747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种序列‑结构‑功能耦合的蛋白质预训练模型构建方法,包括:以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO‑Structure知识图谱;基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码框架,对GO‑Structure知识图谱进行训练,获得训练好的蛋白质编码器。通过该方法可以实现在知识图谱上对“序列‑结构‑功能”这一耦合关系进行特征学习。

Description

一种序列-结构-功能耦合的蛋白质预训练模型构建方法
技术领域
本发明属于机器学习、蛋白质工程技术领域,特别是一种序列-结构-功能耦合的蛋白质预训练模型构建方法。
背景技术
机器学习要学习复杂的输入-输出映射关系。大多数机器学习方法是通过对大量数据的学习,得到一个分类式或生成式模型,使得模型能够对从未见过的样本进行正确分类或生成出数据集中不存在的新样本。无论是分类式模型或是生成式模型,都依赖于对样本特征的提取。特征提取质量的高低决定了模型性能的优劣:如果模型能够提取到样本中针对当前任务的有效特征,则可以很容易训练分类器或生成器,从而达到理想的性能。因此,当下的很多机器学习方法都将注意力集中在特征提取中。
蛋白质是生物体中执行生物功能的重要生物机器,对蛋白质进行研究可以有效地了解生物体生长、凋亡、疾病等过程并对这些过程进行人为的调节。蛋白质是由氨基酸序列构成,氨基酸序列中的氨基酸通过共价键、氢键、范德华力等相互作用使得蛋白质具有稳定结构,而不同的蛋白质结构就决定了蛋白质多样的功能。因此蛋白质的序列决定结构,结构决定功能,“序列-结构-功能”这三者的关系相互耦合。随着结构生物学的发展,越来越多的蛋白质结构得以解析。PDB(Protein Data Bank,蛋白质数据库)中收集了海量的蛋白质解析结构,可供研究者们利用。有了大量的蛋白质结构数据集之后,现有技术中开发了AlphaFold2模型,其能够准确地从蛋白质序列预测蛋白质三维结构,这些结构预测的准确性已经可以达到学界认可的水平。
随着机器学习和蛋白质工程的发展,针对蛋白质的机器学习方法已经越来受到学者们的青睐。这类方法可以应用到蛋白质工程多个方面:上述的AlphaFold2模型是从蛋白质序列预测蛋白质的三维结构、以蛋白质序列为输入预测蛋白质的性质及功能、设计具有特殊性质的蛋白质的序列等。
通过上述内容可知,现有的蛋白质机器学习方法,主要是对蛋白质的序列、结构、序列-结构、序列-功能、共进化信息进行特征提取,没有涉及对蛋白质的耦合关系“序列-结构-功能”同时进行特征提取。此外,已经存在各种各样的生物医药知识图谱,但是现有的知识图谱没有表现出蛋白质的“序列-结构-功能”关系。且当前机器学习方法多用于生物医药知识图谱内的连接预测,鲜有模型利用在知识图谱中学习到的知识去做外延性任务。
因此,如何在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习,并将学习到的特征提取方法应用到外延性的下游任务中,成为当前研究的关键问题。
发明内容
鉴于上述问题,本发明提供一种至少解决上述部分技术问题的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,通过该方法可以实现在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习。
本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,包括:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器。
进一步地,还包括:
S3、通过所述训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
进一步地,所述S1具体包括:
S11、从UniProtKB蛋白质数据库中获取与GO术语有关的蛋白质编号和蛋白质序列;将所述与GO术语有关的蛋白质编号和蛋白质序列补充到GO生物知识图谱中,并与对应的GO术语建立连接关系;
S12、对于所述GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将所述三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱。
进一步地,所述S12还包括:
对于所述GO生物知识图谱中的每一个蛋白质,如果所述PDB蛋白质结构数据库中没有对应的三维结构,则通过AlphaFold2模型依据序列,对所述GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱。
进一步地,所述GO-Structure知识图谱包括GO节点和蛋白质节点;
所述GO节点包括GO术语、GO编号、术语描述和连接关系;
所述连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系;
所述蛋白质节点包含蛋白质编号、蛋白质序列和蛋白质三维结构。
进一步地,所述S2具体包括:
S21、采用GNN蛋白质编码器,对所述蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;
S22、采用BERT文本编辑器对所有GO节点中拼接后的GO术语和术语描述进行编码,生成GO特征向量;
采用BERT文本编辑器对所有GO节点中的连接关系进行编码,生成第一关系特征向量和第二关系特征向量;
S23、根据所述GNN蛋白质编码器的输出特征、GO特征向量、第一关系特征向量和第二关系特征向量,采用基于TransH的知识图谱编码框架对所述GNN蛋白质编码器和BERT文本编辑器进行优化,直到获得训练好的蛋白质编码器。
进一步地,所述S21具体包括:
S211、获取所述GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;
每个蛋白质节点包括多个氨基酸残基;每个氨基酸残基包括C原子、
Figure SMS_1
原子和N原子;所述C原子、/>
Figure SMS_2
原子和N原子均有对应的三维坐标,以此来表示蛋白质三维结构;
所述蛋白质序列表示为
Figure SMS_3
;其中,n表示蛋白质序列的长度;/>
Figure SMS_4
表示第i个氨基酸残基的类型;每个氨基酸残基的空间位置均由对应的/>
Figure SMS_5
原子的三维坐标来表示;
S212、根据所述蛋白质序列和蛋白质三维结构,将每个氨基酸残基视为图结构中的一个氨基酸节点,构建蛋白质的图结构;
S213、定义图结构中的节点特征和边特征;
S214、基于所述节点特征和边特征,循环更新图神经网络,直至获得每一个氨基酸节点的隐藏状态;
S215、对所有氨基酸节点的隐藏状态取平均值,获得GNN蛋白质编码器的输出特征。
进一步地,所述S212包括:
将每个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;
对于每个氨基酸节点,将与其距离最近的6个氨基酸节点也视为其相邻节点,将该氨基酸节点和与其距离最近的6个氨基酸节点相连接。
进一步地,所述S213包括:
利用图结构中的结构信息,基于空间几何求得蛋白质主链上每一个氨基酸节点位置的扭转角;对所述扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;
计算两个相邻的氨基酸节点的欧氏距离,并将所述欧氏距离作为图结构中的边特征。
进一步地,基于TransH的知识图谱编码框架的损失函数表示为:
Figure SMS_6
其中,
Figure SMS_7
表示对GO-Structure知识图谱中所有的三元组进行遍历;/>
Figure SMS_8
表示Sigmoid函数,用于将函数值映射到(0,1);/>
Figure SMS_9
表示预设的松弛变量;/>
Figure SMS_10
表示真实存在的三元组头实体经过超平面变换后的编码;/>
Figure SMS_11
表示真实存在的三元组尾实体经过超平面变换后的编码;/>
Figure SMS_12
表示预设的伪三元组尾实体经过超平面变换后的编码;/>
Figure SMS_13
表示关系r所对应的第一关系特征向量;K表示构造的伪三元组的数量。
与现有技术相比,本发明记载的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,具有如下有益效果:
本发明构造了一个蛋白质编码器用作蛋白质的特征提取,其在训练过程中充分融入了蛋白质的“序列-结构-功能”耦合关系,符合生物学概念“蛋白质的序列决定结构,结构决定功能”。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的序列-结构-功能耦合的蛋白质预训练模型生成方法流程示意图。
图2为本发明实施例提供的GO-Structure知识图谱示意图。
图3为本发明实施例提供的氨基酸序列示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1所示,本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,具体包括如下步骤:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器;
S3、通过训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
下面分别对上述各个步骤进行详细的说明。
在上述步骤S1中,GO-Structure知识图谱是一个包含生物知识、蛋白质序列及结构的数据,其以GO(Gene Ontology,基因本体论)生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,辅以AlphaFold2模型来预测三维结构。其中:
GO生物知识图谱,也称GO术语逻辑网络,是将当前学界所掌握生物知识整理成逻辑网络的形式,分别阐释了分子功能、生物过程和细胞组分三个层面多个术语之间的逻辑关系;其中:分子功能是描述基因产物在分子层面的功能活动,例如“转运活性”;生物过程是在生物体中进行的过程,比分子功能更宏观,一般由多种分子活动完成,例如“DNA修复”;细胞组分是与细胞结构相关的位置,基因产物在其中发挥功能,例如“线粒体”。GO生物知识图谱能够描述不同术语之间的联系。例如图2包含了GO中细胞组分的部分结构,其表示如下关系:plasma membrane(细胞质膜)是一种membrane(膜),也是cell periphery(细胞边界)的一部分;membrane是一种cellular anatomical entity(细胞解剖实体),cellperiphery是一种cellular anatomical entity;cellular anatomical entity是一种cellular component(细胞组分)。
UniProtKB蛋白质数据库中包含了大量人类已知的蛋白质,且能够标注出蛋白质序列信息及与GO术语的对应关系,从而在功能层面对蛋白质进行描述;如图2所示,Q14028蛋白与GO属于具有关系Is_a和Is_active_in。因此,本发明实施例将UniProtKB中与GO术语中有关的蛋白质编号和蛋白质序列记录下来,并将这些蛋白质编号和蛋白质序列信息补充到GO生物知识图谱中,并于对应的GO术语建立连接关系。
PDB蛋白质结构数据库中包含了大量具有解析结构的蛋白质,UniProtKB中的部分蛋白质可以从PDB蛋白质结构数据库中获取;因此,在本发明实施例中,对于GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将三维结构附加到GO生物知识图谱中,构建GO-Structure知识图谱;如果PDB蛋白质结构数据库中没有对应的蛋白质结构,则通过AlphaFold2模型依据序列,对GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到GO生物知识图谱中,构建GO-Structure知识图谱。
由此完成了GO-Structure知识图谱的构建(如图2),该GO-Structure知识图谱中包含GO节点和蛋白质节点;其中,GO节点包含GO术语(例如:membrane)、GO编号(例如:GO:0016020)、术语描述(例如:Membrane is …)和连接关系;该连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系。蛋白质节点包含蛋白质编号(例如:Q14028)、蛋白质序列和蛋白质三维结构。值得说明的是,将蛋白质与GO相联系,能够借助GO对蛋白质的功能及蛋白质所在的位置进行描述。
在上述步骤S2中,基于GNN(Graph Neural Network)的蛋白质编码器进行学习,同时将BERT文本编辑器作为辅助模型,将TransH作为知识图谱编码的框架;特征学习输入的数据是GO-Structure知识图谱,最后呈现出一个训练好的蛋白质编码器;该步骤S2具体包括以下内容:
S21、采用GNN蛋白质编码器,对蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;具体包括:
获取GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;其中,蛋白质序列(即氨基酸序列,以下不加以区分)由首尾顺次相连的氨基酸构成,可表示为
Figure SMS_14
;n表示蛋白质序列的长度;/>
Figure SMS_15
表示第i个氨基酸的类型;共有20种氨基酸类型。图3表示的是蛋白质序列的主干,图3框内表示一个氨基酸残基,一个氨基酸残基主干上从左到右分别为C原子、/>
Figure SMS_16
原子和N原子,每一个原子都对应有一个三维坐标。因此,一个蛋白质有若干个氨基酸残基,每一个氨基酸残基上的C原子、/>
Figure SMS_17
原子和N原子都有对应的三维坐标,以此可以表示蛋白质的三维结构;上述氨基酸残基实际上就是不完整的氨基酸。
在获得蛋白质的序列和三维结构之后,开始建立蛋白质的图结构。将每一个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;用
Figure SMS_18
原子的三维坐标来代表其所对应的氨基酸节点的空间位置;对于每一个氨基酸而言,与其距离最近的6个氨基酸也被视为其相邻节点,因此,将该氨基酸和与其距离最近的6个氨基酸相连接。
完成图结构的建立后,利用结构信息和空间几何知识,可以求得蛋白质主链上每一个氨基酸位置的扭转角
Figure SMS_19
、/>
Figure SMS_20
和/>
Figure SMS_21
(如图3);对该扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;该节点特征表示为:
Figure SMS_22
其中,下标i表示第i个氨基酸节点。
在图结构中两个相邻的氨基酸的空间位置都由其对应的
Figure SMS_23
原子的三维坐标表示,因此本发明实施例中计算两个相邻的氨基酸的欧氏距离,并将该欧氏距离作为图结构中的边特征;该边特征表示为:
Figure SMS_24
其中,
Figure SMS_25
表示第i个氨基酸中/>
Figure SMS_26
原子的三维坐标;第j个氨基酸在图结构中与第i个氨基酸相邻。
将图结构构建好且定义了节点和边的特征后,开始循环更新图神经网络。依据上述图结构及其对应的节点和边特征,对图神经网络更新
Figure SMS_27
次,每次的更新公式为:
Figure SMS_28
其中,
Figure SMS_29
和/>
Figure SMS_30
分别表示上一次更新后的第i个氨基酸节点和第j个氨基酸节点的隐藏状态,/>
Figure SMS_31
;/>
Figure SMS_32
表示与氨基酸类型相关的编码;/>
Figure SMS_33
表示边特征;/>
Figure SMS_34
表示两层全连接网络;/>
Figure SMS_35
表示第i个节点更新(l+1)次后的隐藏状态;
对图网络更新L次后,可以得到每一个氨基酸节点的隐藏状态,表示为:
Figure SMS_36
其中,
Figure SMS_37
表示上述构建的图结构;/>
Figure SMS_38
表示图神经网络的更新方式(如上所述)。
最后,对所有氨基酸节点的隐藏状态取平均值,即可输出给定维度的蛋白质编码,将该蛋白质编码作为GNN蛋白质编码器的输出特征
Figure SMS_39
,表示为:
Figure SMS_40
S22、BERT是当下较为流行的语言模型,其由多个Transformer模块堆叠而成,能够将一系列文本输入转化为编码输出;GO-Structure知识图谱里的每一个GO节点,不仅具有GO术语,还有相应的术语描述。GO术语和属于描述都属于文本,将此二者拼接之后输入BERT进行编码,可以获得GO节点的特征
Figure SMS_41
,将所有GO节点的特征记作GO特征向量;
对于GO-Structure知识图谱中节点之间的连接关系(例如图2中的Is_a,Is_active_in),也输入到BERT文本编辑器中,获得两个关系特征
Figure SMS_42
和/>
Figure SMS_43
,编辑完成后获得第一关系特征向量第二关系特征向量;
在此需要说明的是,每一个蛋白质都可编码得到一个特征
Figure SMS_44
,每一个GO节点都可编码得到一个GO特征/>
Figure SMS_45
,每一种关系都可得到两个特征/>
Figure SMS_46
和/>
Figure SMS_47
,这四种特征的维度均相同。
S23、在知识图谱中,每一对连接关系都可以表示成一个三元组(hhead,r,htail),其中hhead和htail分别表示头和尾两个实体,
Figure SMS_48
表示连接关系。实体hhead和htail可分别编码成
Figure SMS_52
(黑体表示向量),关系/>
Figure SMS_54
可编码成两个向量/>
Figure SMS_49
和/>
Figure SMS_53
。对于GO-Structure知识图谱,使用GNN蛋白质编码器对蛋白质进行编码,使用BERT文本编辑器对GO节点和连接关系进行编码。在这一部分为了便于表示,将蛋白质编码和GO节点编码都视作实体编码,不做区分;只以/>
Figure SMS_55
和/>
Figure SMS_56
区分头尾两个实体编码。/>
Figure SMS_50
用作超平面变换,/>
Figure SMS_51
用作距离描述。分别对头尾两个实体向量进行超平面变换:
Figure SMS_57
Figure SMS_58
因此,基于TransH的知识图谱编码框架的损失函数可表示为:
Figure SMS_59
其中,
Figure SMS_60
表示对GO-Structure知识图谱中所有的三元组进行遍历;/>
Figure SMS_61
表示Sigmoid函数,用于将函数值映射到(0,1);/>
Figure SMS_62
表示预设的松弛变量;/>
Figure SMS_63
表示真实存在的三元组头实体经过超平面变换后的编码;/>
Figure SMS_64
表示真实存在的三元组尾实体经过超平面变换后的编码;/>
Figure SMS_65
表示预设的伪三元组尾实体经过超平面变换后的编码;/>
Figure SMS_66
表示关系r所对应的第一关系特征向量;K表示构造的伪三元组的数量。
对该损失函数
Figure SMS_67
进行最小化处理,就是使得真三元组的/>
Figure SMS_68
与/>
Figure SMS_69
的距离更小,使得伪三元组的/>
Figure SMS_70
与/>
Figure SMS_71
的距离更大。
以最小化损失函数
Figure SMS_72
为目标进行模型的训练,最后得到训练好的蛋白质编码器,在具体使用过程中,将蛋白质的序列和结构输入到该训练好的蛋白质编码器中,便可输出输出蛋白质对应的特征向量。由于在上述训练过程蛋白质编码器学习了知识图谱中的蛋白质功能信息,由此完成“序列-结构-功能”的特征学习。
在上述步骤S3中,已经训练好的蛋白质编码器能够从蛋白质序列和结构中提取出有效特征,可应用于下游任务(蛋白质稳定性预测、功能预测、互作预测、同源性预测等)。通过给该训练好的蛋白质编码器增加一个针对特定任务的模块,再依据数据集对给定任务进行微调,即可应用到下游任务中。
接下来通过一个具体的实施例,来进一步说明如何将本发明实施例所提供的方法应用到下游任务中。
蛋白质稳定性预测。其可被视作一个回归问题,即给定蛋白质的序列和结构作为输入,输出一个连续的稳定性系数。此时可在蛋白质编码器提取蛋白质特征之后,使用MLP(Multi-Layer Perceptron,多层感知机)将高维特征向量映射到一个连续数值,即可实现回归。
蛋白质功能预测和蛋白质同源性预测。这两个问题本质上都是多分类问题,即给定蛋白质的序列和结构作为输入,输出蛋白质可能属于的类别。此时可在蛋白质编码器提取蛋白质特征之后,使用MLP将高维特征向量映射到一个k维向量(k为类别数),再用
Figure SMS_73
函数对此向量进行处理,映射到独热编码中即可实现多分类。
蛋白质-蛋白质互作预测。此问题预测两个蛋白质是否会发生相互作用,输入是两个蛋白质的序列和结构,输出是标签0或1。对于两个输入的蛋白质,使用蛋白质编码器对二者分别编码得到两个特征向量,将特征向量进行拼接,再经过一个MLP将高维特征向量映射到一维,使用
Figure SMS_74
函数对此向量进行处理进行分类。
蛋白质序列设计。此问题即为蛋白质的序列生成,在生成序列的同时预测蛋白质的结构(即每一个氨基酸残基的坐标)。假设待生成序列的长度给定,初始化时将所有氨基酸类型设置成“空”类别,坐标初始化在原点。每预测一个氨基酸残基的类型及坐标,都需要经过一次蛋白质编码和预测模块(例如MLP),直到预测结束。
本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法,首先建立GO-Structure知识图谱,该GO-Structure知识图谱涉及蛋白质的序列、结构和功能;其次基于GNN构造了蛋白质编码器,使用BERT作为文本编码器,在知识图谱上采用TransH的训练框架,训练了一个融合蛋白质 “序列-结构-功能”耦合关系的蛋白质编码器;最后将蛋白质编码器所提取到的特征应用到多个下游任务中,增强模型的表现。
现有的知识图谱很少能够体现蛋白质的“序列-结构-功能”关系;现有的机器学习方法鲜有对蛋白质的“序列-结构-功能”关系进行建模;现有的知识图谱学习方法常常局限在知识图谱内的推理,没有将在知识图谱中所学到的知识进行外延性应用。本发明分别针对这三个现存问题,构建了GO-Structure知识图谱、训练蛋白质编码器学习蛋白质的“序列-结构-功能”关系、将蛋白质编码器应用到具有外延性的下游任务中,例如蛋白质稳定性预测、蛋白质功能预测、蛋白质序列设计、蛋白质互作预测和蛋白质同源性预测等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,包括以下步骤:
S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源,构建GO-Structure知识图谱;
S2、基于GNN蛋白质编码器,以BERT文本编辑器作为辅助模型,以TransH作为知识图谱编码的框架,对所述GO-Structure知识图谱进行训练,获得训练好的蛋白质编码器;
所述S1具体包括:
S11、从UniProtKB蛋白质数据库中获取与GO术语有关的蛋白质编号和蛋白质序列;将所述与GO术语有关的蛋白质编号和蛋白质序列补充到GO生物知识图谱中,并与对应的GO术语建立连接关系;
S12、对于所述GO生物知识图谱中的每一个蛋白质,在PDB蛋白质结构数据库中搜索对应的三维结构,并将所述三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱;
所述S12还包括:
对于所述GO生物知识图谱中的每一个蛋白质,如果所述PDB蛋白质结构数据库中没有对应的三维结构,则通过AlphaFold2模型依据序列,对所述GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测,并将预测到的三维结构附加到所述GO生物知识图谱中,构建GO-Structure知识图谱;
所述GO-Structure知识图谱包括GO节点和蛋白质节点;
所述GO节点包括GO术语、GO编号、术语描述和连接关系;
所述连接关系表示为三元组(hhead,r,htail),其中hhead和htail分别表示头实体和尾实体,r表示头实体和尾实体之间的连接关系;
所述蛋白质节点包含蛋白质编号、蛋白质序列和蛋白质三维结构;
所述S2具体包括:
S21、采用GNN蛋白质编码器,对所述蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码,生成GNN蛋白质编码器的输出特征;
S22、采用BERT文本编辑器对所有GO节点中拼接后的GO术语和术语描述进行编码,生成GO特征向量;
采用BERT文本编辑器对所有GO节点中的连接关系进行编码,生成第一关系特征向量和第二关系特征向量;
S23、根据所述GNN蛋白质编码器的输出特征、GO特征向量、第一关系特征向量和第二关系特征向量,采用基于TransH的知识图谱编码框架对所述GNN蛋白质编码器和BERT文本编辑器进行优化,直到获得训练好的蛋白质编码器。
2.如权利要求1所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,还包括:
S3、通过所述训练好的蛋白质编码器,实现提取目标蛋白质序列和结构的有效特征。
3.如权利要求1所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S21具体包括:
S211、获取所述GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构;
每个蛋白质节点包括多个氨基酸残基;每个氨基酸残基包括C原子、Cα原子和N原子;所述C原子、Cα原子和N原子均有对应的三维坐标,以此来表示蛋白质三维结构;
所述蛋白质序列表示为(s1,s2,...,sn);其中,n表示蛋白质序列的长度;Si表示第i个氨基酸残基的类型;每个氨基酸残基的空间位置均由对应的Cα原子的三维坐标来表示;
S212、根据所述蛋白质序列和蛋白质三维结构,将每个氨基酸残基视为图结构中的一个氨基酸节点,构建蛋白质的图结构;
S213、定义图结构中的节点特征和边特征;
S214、基于所述节点特征和边特征,循环更新图神经网络,直至获得每一个氨基酸节点的隐藏状态;
S215、对所有氨基酸节点的隐藏状态取平均值,获得GNN蛋白质编码器的输出特征。
4.如权利要求3所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S212包括:
将每个氨基酸残基视为图结构中的一个氨基酸节点,将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接;
对于每个氨基酸节点,将与其距离最近的6个氨基酸节点也视为其相邻节点,将该氨基酸节点和与其距离最近的6个氨基酸节点相连接。
5.如权利要求3所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,所述S213包括:
利用图结构中的结构信息,基于空间几何求得蛋白质主链上每一个氨基酸节点位置的扭转角;对所述扭转角进行正余弦处理,并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征;
计算两个相邻的氨基酸节点的欧氏距离,并将所述欧氏距离作为图结构中的边特征。
6.如权利要求1所述的一种序列-结构-功能耦合的蛋白质预训练模型构建方法,其特征在于,基于TransH的知识图谱编码框架的损失函数表示为:
Figure FDA0004186616840000031
其中,
Figure FDA0004186616840000032
表示对GO-Structure知识图谱中所有的三元组进行遍历;σ(·)表示Sigmoid函数,用于将函数值映射到(0,1);γ表示预设的松弛变量;/>
Figure FDA0004186616840000033
表示真实存在的三元组头实体经过超平面变换后的编码;/>
Figure FDA0004186616840000034
表示真实存在的三元组尾实体经过超平面变换后的编码;/>
Figure FDA0004186616840000035
表示预设的伪三元组尾实体经过超平面变换后的编码;dr表示关系r所对应的第一关系特征向量;K表示构造的伪三元组的数量。
CN202310167150.0A 2023-02-27 2023-02-27 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 Active CN115862747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310167150.0A CN115862747B (zh) 2023-02-27 2023-02-27 一种序列-结构-功能耦合的蛋白质预训练模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310167150.0A CN115862747B (zh) 2023-02-27 2023-02-27 一种序列-结构-功能耦合的蛋白质预训练模型构建方法

Publications (2)

Publication Number Publication Date
CN115862747A CN115862747A (zh) 2023-03-28
CN115862747B true CN115862747B (zh) 2023-06-30

Family

ID=85658975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310167150.0A Active CN115862747B (zh) 2023-02-27 2023-02-27 一种序列-结构-功能耦合的蛋白质预训练模型构建方法

Country Status (1)

Country Link
CN (1) CN115862747B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206690B (zh) * 2023-05-04 2023-08-08 山东大学齐鲁医院 一种抗菌肽生成和识别方法及系统
CN116935952B (zh) * 2023-09-18 2023-12-01 浙江大学杭州国际科创中心 基于图神经网络训练蛋白质预测模型的方法及装置
CN118072835B (zh) * 2024-04-19 2024-09-17 宁波甬恒瑶瑶智能科技有限公司 基于机器学习的生物信息学数据处理方法、系统及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220392625A1 (en) * 2019-10-30 2022-12-08 Lululemon Athletica Canada Inc. Method and system for an interface to provide activity recommendations
CN114333980B (zh) * 2021-08-27 2024-06-07 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114333982B (zh) * 2021-11-26 2023-09-26 北京百度网讯科技有限公司 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置

Also Published As

Publication number Publication date
CN115862747A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115862747B (zh) 一种序列-结构-功能耦合的蛋白质预训练模型构建方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
Han et al. A survey on metaheuristic optimization for random single-hidden layer feedforward neural network
Liang et al. Symbolic graph reasoning meets convolutions
Gong et al. A multiobjective sparse feature learning model for deep neural networks
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN106021990B (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN117524353B (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
CN112949929B (zh) 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
Geete et al. Robust transcription factor binding site prediction using deep neural networks
CN118335202B (zh) 一种基于生成式神经网络模型设计抗体结构和序列的方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN117321692A (zh) 用于从分子图生成任务相关的结构嵌入的方法和系统
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
Sathe et al. Gene expression and protein function: A survey of deep learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant