CN116417062A - 酶-底物亲和力常数预测方法、存储介质和装置 - Google Patents
酶-底物亲和力常数预测方法、存储介质和装置 Download PDFInfo
- Publication number
- CN116417062A CN116417062A CN202310206869.0A CN202310206869A CN116417062A CN 116417062 A CN116417062 A CN 116417062A CN 202310206869 A CN202310206869 A CN 202310206869A CN 116417062 A CN116417062 A CN 116417062A
- Authority
- CN
- China
- Prior art keywords
- enzyme
- smiles
- substrate
- information
- affinity constant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000758 substrate Substances 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 44
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 37
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 27
- 150000001875 compounds Chemical class 0.000 claims abstract description 27
- 102000004190 Enzymes Human genes 0.000 claims abstract description 23
- 108090000790 Enzymes Proteins 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 239000002131 composite material Substances 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 241000393496 Electra Species 0.000 claims description 12
- 241000995051 Brenda Species 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 3
- 239000000126 substance Chemical group 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 150000001413 amino acids Chemical class 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 108091005942 ECFP Proteins 0.000 description 3
- 241000588724 Escherichia coli Species 0.000 description 3
- 239000003596 drug target Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000002207 metabolite Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- GUBGYTABKSRVRQ-CUHNMECISA-N D-Cellobiose Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1O[C@@H]1[C@@H](CO)OC(O)[C@H](O)[C@H]1O GUBGYTABKSRVRQ-CUHNMECISA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000002902 MACCS key Methods 0.000 description 1
- -1 RDkit fingerprint Proteins 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 102000006995 beta-Glucosidase Human genes 0.000 description 1
- 108010047754 beta-Glucosidase Proteins 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000036978 cell physiology Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000002826 magnetic-activated cell sorting Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 239000006225 natural substrate Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Computation (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种酶‑底物亲和力常数预测方法、存储介质和装置,属于生物信息学领域,所述方法包括如下步骤:1)构建蛋白质和化合物序列语料库用来训练模型,2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵,3)将张量矩阵输入到卷积神经网络进行特征提取,获得特征向量;4)将提取到的两个特征向量连接成单个向量,并将该向量输入到回归网络中以进行KM预测。本发明还提供了存储有所述方法的计算机可读存储介质和由所述介质组成的装置。本发明可以将蛋白质序列和底物的SMILES字符串的上下文信息进行相关表示,可以表征各种序列或字符串中每个氨基酸或原子的多样性,从而提高酶‑底物亲和力常数KM预测的准确性。
Description
技术领域
本发明属于生物信息学领域,结合了基因组学和生物化学以及深度神经网络的知识设计并实现了一套对酶-底物的亲和力常数KM进行预测的新方法。
背景技术
米氏常数KM定义为酶以最大催化速率的一半运行时的底物浓度,因此,它描述了酶对特定底物的亲和力,是酶动力学和细胞生理学研究的核心参数。KM值对于定量理解酶和代谢物之间的酶促和调节相互作用至关重要:它将代谢物的细胞内浓度与其消耗速率联系起来,将代谢组与细胞生理学联系起来。然而KM值的测量通常既困难又耗时,因此即使在模式生物中也只有少数的酶-底物组合存在实验估计值。例如,即使是在生化特征最好的生物体大肠杆菌中,也只有不到30%的天然底物存在体外KM测量值。因此,如何快速高效并且准确的预测KM值成为生物信息学中的一个基本问题。
随着人工智能的发展,使得计算机技术在生物信息学领域的应用得以实现。目前大规模动力学建模的标准方法是在优化过程中估计动力学参数,这些优化通常试图估计更多的未知参数,而不是以测量值作为输入,因此,得到的KM值有很大的置信范围,并且与实验观测值几乎没有联系。因此,人工智能对这些数值的预测,即使只是一个数量级,也代表着向更现实的细胞代谢模型迈进了一大步,并可能大大增加这些模型提供的生物学理解。在之前只有少数的研究试图通过计算机辅助来预测天然酶促反应的动力学参数。有人成功地使用机器学习模型来预测大肠杆菌反应的未知周转数,虽然用这个模型可以成功地预测许多大肠杆菌的Kcat值,但是对于大多数酶来说,活性位点信息是不可用的。此外,除了少数模式生物之外,既没有活性位点信息,也没有反应通量估计,从而阻碍了这种方法的推广。有人训练了一个线性模型来预测KM值,该模型基于同一底物的其他KM值测量,这些KM值与同一生物体中的不同酶和其他生物体中的相同酶配对;他们为8种不同的底物中的每一种都拟合了一个独立的模型。有人后来遵循了类似的聚焦策略,基于神经网络预测底物纤维二糖的β-葡萄糖苷酶的Km值。这两种预测KM的方法针对的是个体,需要具有经过充分研究的酶-底物组合,具有大量用于训练和测试的实验KM数据。因此,他们的策略不适用于研究较少的反应,也不能应用于基因组规模的预测。
在此背景下,越来越多的研究倾向于采用预测DTI的方法应用到KM值的预测上。目前已经开发了多种预测药物靶标结合亲和力的方法。这些方法大多是基于相似性、基于结构或基于特征的。基于相似性的方法依赖于相似药物倾向于与相似靶点相互作用的假设;这些方法使用已知的药物-靶点相互作用来学习基于药物-药物和靶点-靶点相似性度量的预测函数。基于结构的DTI预测模型利用目标蛋白质的3D结构的信息。这两种策略都不能轻易推广到基因组规模的、与生物无关的预测,因为许多酶和底物与特征良好的分子相似性差距比较大,而且3D结构只适用于少数酶。
总之,前两种方法都只适用于较少的酶和底物亲和力预测,无法推广至基因组规模的预测。
发明内容
本发明要解决的技术问题在于提供一种融合酶-底物的重要信息并对其亲和力常数KM进行预测的新方法,所述方法首先分别构建表示蛋白质和化合物信息的语料库;然后,提出一种新颖的融合了特征提取器和全连接神经网络FCNN的对酶-底物亲和力常数KM进行预测的模型,所述模型可以将蛋白质序列和底物的SMILES字符串的上下文信息进行相关表示,可以表征各种序列或字符串中每个氨基酸或原子的多样性,从而提高酶-底物亲和力常数KM预测的准确性。
本发明是通过如下技术方案来实现的:
一种酶-底物亲和力常数KM预测的方法,所述方法的具体步骤如下所示:1)构建蛋白质和化合物序列语料库用来训练模型,2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵,3)将张量矩阵输入到卷积神经网络(CNN)进行特征提取,获得特征向量;4)将提取到的两个特征向量连接成单个向量,并将该向量输入到回归网络中以进行KM预测。
进一步,所述的构建蛋白质和化合物序列语料库用来训练模型:构建针对特定任务的语料库训练ELECTRA模型,以获得输入序列的编码层;SMILES字符串中每个原子和化学键都是一个单词,通过收集许多化合物来自然地组成语料库,使用Open Babel将语料库中的所有SMILES字符串转换为规范格式;与SMILES字符串类似,从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库,把每个残基看成一个单词,利用UniProt数据库收集蛋白质信息;
利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量;ELECTRA使用两个Transformer编码器作为基础结构,一个充当生成器网络,另一个充当鉴别器网络;来自SMILES字符串的标记首先被屏蔽,一些被替换为具有固定概率的屏蔽符号[MASK];然后,将[MASK]标记输入生成器,与鉴别器进行联合预训练。
所述的提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵:使用经过训练的ELECTRA模型,从BRENDA数据库中提取代表底物信息的SMILES字符串和代表酶信息的氨基酸序列,分别嵌入到张量中,输出张量矩阵;
进一步,对于单个化合物,来自其SMILES字符串的标记序列(代表原子或结构指示符)被输入经过训练的ELECTRA-M模型以产生复合编码。
进一步,所述每个字符被转换成一个长度为WC的向量通过ELECTRA-M,然后是一系列的令牌被转换为一个长度为NC的序列,最终连接成一个WC×NC的张量矩阵作为复合表示;以同样的方式,一个蛋白质残基标记被编码成一个长度为WP由ELECTRA-P和长度为NP的氨基酸序列连接成一个WP×NP张量矩阵。
进一步,将张量矩阵输入到卷积神经网络(CNN)进行特征提取,获得特征向量:把代表底物信息的SMILES字符串特征张量矩阵和代表蛋白质信息的氨基酸序列特征张量矩阵分别输入到两个相同的特征提取器网络中进行特征提取,获得SMILES字符串特征向量和氨基酸序列特征向量;使用一维卷积来投影输入化合物或蛋白质,将其张量X∈RT×256进入特征图U∈RT×C执行特征重新校准。
进一步,将提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量,并将其输入到回归网络中来预测KM值。
本发明还提供一种计算机可读存储介质,所述存储介质能够运行所述的酶-底物亲和力常数预测方法。
本发明还提供一种酶-底物亲和力常数预测装置,所述装置搭载所述计算机可读存储介质。
本发明与现有技术相比的有益效果:
1)本发明基于特征的药物-靶点相互作用预测模型使用药物和靶点的数字表示作为完全连接的神经网络(FCNN)的输入。药物特征向量通常要么是SMILES字符串表示,要么是专家精心制作的指纹,或者是用图神经网络(GNN)创建的指纹,而目标的那些通常是基于序列的表示。所以这种方法可以表示大多数的酶和底物并推广至基因组规模的预测。
2)本发明使用来自PubChem数据库的化合物SMILES字符串信息和来自UniProt数据库的蛋白质FASTA序列信息对模型进行预训练。使用这两个数据库中的数据信息可以保证数据的高质量性和规模性,在对ELECTRA模型进行预训练时可以使得模型学习到更多的高质量的数据,从而使模型在预测酶-底物亲和力时获得更高的准确性。
3)采用NLP技术构建SMILES字符串和蛋白质FASTA语料库。在预训练ELECTRA模型之前,需要构建适当的语料库。在处理复合SMILES字符串时,将每个原子和键符号看作是单词,并且为了保持不同来源的SMILES的一致性,使用Open Babel将语料库中的所有SMILES字符串转换为规范格式。同样的,在处理蛋白质FASTA序列时,将每个残基看作是单词。这样,ELECTRA编码提供了蛋白质序列和复合SMILES的上下文相关表示,可以表征各种序列或字符串中每个原子或氨基酸的多样性。
附图说明
图1为本发明的整体框架图;
图2为本发明的ELECTRA预训练的原理示意图;
图3为复合SMILES字符串和蛋白质序列嵌入原理示意图;
图4为CNN和FCNN模型架构图;
图5为本发明的模型预测结果图。
具体实施方式
下面通过实施例结合附图来对本发明的技术方案做进一步解释,但本发明的保护范围不受实施例任何形式上限制。
实施例1
一种融合了化合物和蛋白质序列上下文信息的预测酶-底物亲和力KM的新方法,整体框架图如图1所示,所述方法的具体步骤如下所示:
1)构建蛋白质和化合物序列语料库用来训练模型。
需要提前构建针对特定任务的语料库训练ELECTRA模型,以获得输入序列的编码层。SMILES字符串是具有简单词汇(只有原子和化学键符号)和一些语法规则的语言结构。与自然语言处理类似,SMILES字符串类似于句子,其中每个原子和键符号都是一个单词。然后可以通过收集许多化合物来自然地组成语料库。例如,SMILES字符串“CC(=)OC1=C”可以列为由标记为由‘C’,‘(’,‘=’,‘)’,‘0’,‘1’组合构成的句子。为了确保来自不同来源的所有SMILES字符串的一致性,我们使用Open Babel将语料库中的所有SMILES字符串转换为规范格式。与SMILES字符串类似,我们从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库,把每个残基看成一个单词,我们利用UniProt数据库收集蛋白质信息。
2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵。
利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量。ELECTRA预训练的原理示意图如图2所示,ELECTRA使用两个Transformer编码器作为基础结构:一个充当生成器网络,另一个充当鉴别器网络。生成器通常是一个小的掩码语言模型,它在令牌上产生输出分布。来自SMILES字符串的标记首先被屏蔽,一些被替换为具有固定概率的屏蔽符号[MASK]。然后,将[MASK]标记输入生成器,与鉴别器进行联合预训练。生成器网络首先从被屏蔽的标记中学习,然后用预测值填充缺失的标记,但预测值可能与原始值不同。从PubChem数据库中提取化合物的复合SMILES字符串,从UniProt数据库中提取蛋白质的FASTA序列,分别输入到两个Transformer编码器中,一个充当生成器网络,另一个充当鉴别器网络,在使用SMILES字符串进行预训练后,我们获得了一个ELECTRA-M模型作为编码器,可以将每个SMILES字符串编码为下游任务中的特征向量。类似地,获得一个用氨基酸序列预训练的ELECTRA-P模型,该模型也将每个氨基酸序列编码成一个特征向量。将氨基酸序列和SMILES字符串作为输入输入到整个框架中,因为SMILES字符串和氨基酸序列的长度不同,将它们截断为固定长度以进行有效表示。为SMILES选择固定长度100,为蛋白质序列选择1000作为数据集的基准。我们根据数据集的分布选择这些最大长度,以便最大长度覆盖数据集中至少80%的蛋白质和化合物。较长的序列被截断到这些长度,而较短的序列用零填充到固定长度。
3)将张量矩阵输入到卷积神经网络(CNN)进行特征提取,获得特征向量。从BRENDA数据库下载了KM值以及生物体和底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个具有156387个条目的数据集。通过KEGG的同义词列表将底物名称映射到KEGG化合物ID。对于所有不能直接映射到KEGG化合物ID的底物名称,尝试首先通过PubChem中的同义词列表将它们映射到PubChem化合物ID,然后使用MBROLE的Web服务将这些ID映射到KEGG化合物ID。如果UniProt ID可用,通过UniProt映射服务下载所有数据点的氨基酸序列;否则,通过生物体名称和EC编号从BRENDA下载氨基酸序列。然后,删除了(I)所有重复的条目;(II)具有非野生型酶的所有条目;(III)没有该酶的UniProt ID的非细菌生物的条目;以及(IV)底物名称无法映射到KEGG化合物ID的条目。这导致了34526个数据点的过滤集合。对于其中的11737个,可以在KEGG反应数据库中找到EC编号-底物组合的条目。因为只有天然基质的KM值有意义,所以只保留了这些数据点。对此数据集中的所有KM值进行了log10转换。将包含11737个条目的最终数据集随机分为训练数据(80%)和测试数据(20%)。我们进一步将训练集分成5个子集,用于对机器学习模型的超参数优化进行5次交叉验证。使用测试数据对超参数优化后的最终模型进行了评估。
从Sabio-RK数据库下载KM值以及生物体名称、底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个包含8375个条目的数据集。以与上述BRENDA数据集相同的方式处理此数据集。删除了所有具有PubMed ID的条目,该ID已经存在于BRENDA数据集中。这产生了一个包含274个条目的最终数据集,我们将其用作KM预测的最终模型的附加测试集。
首先通过3种不同的分子指纹(ECFP、RDKit指纹、MACCS键)来表示每种底物。对于最终数据集中的每个底物,通过KEGG化合物ID从KEGG下载了一个MDL Molfile,其中包含其原子和键的2D投影。然后,使用来自RDKit的包Chem,以Molfile作为输入来计算2048维二进制RDKit指纹、166维二进制MACCS密钥和1024维二进制ECFP。
把经过预处理的SMILES字符串和氨基酸序列分别嵌入经过训练的ELECTRA-M和ELECTRA-P模型。复合SMILES字符串和蛋白质序列嵌入原理示意图如图3所示,对于单个化合物,来自其SMILES字符串的标记序列(代表原子或结构指示符)被输入经过训练的ELECTRA-M模型以产生复合编码。具体来说,每个token,也就是一个字符,被转换成一个长度为WC的向量通过ELECTRA-M,然后是一系列的令牌被转换为一个长度为NC的序列,最终连接成一个WC×NC的张量矩阵作为复合表示。以同样的方式,一个蛋白质残基标记被编码成一个长度为WP由ELECTRA-P和长度为NP的氨基酸序列连接成一个WP×NP张量矩阵。把得到的两个张量矩阵分别输入到两个相同的特征提取器网络CNN和FCNN中,CNN和FCNN模型框架如图4所示,其内部是由两个SE块和一个全局最大池化层构成,获得SMILES字符串特征向量和氨基酸序列特征向量。使用一维卷积来投影输入化合物或蛋白质张量X∈RT×256进入特征图U∈RT×C执行特征重新校准;这个一维卷积在特征方向,因此,首先对这些特征图U进行压缩,并通过特征方向上的全局平均池化来生成通道或特征描述符;交互信息被累积在这个描述符中;压缩操作之后是具有完全连接层和ReLU激活的激励操作,该操作通过简单的自选通机制从特征中产生调制权重;SE块的输出是由这些调制权重缩放的特征图U的形式;堆叠的SE块进一步扩大了特征之间的这种交互信息;对用于超参数优化的4种底物表示(ECFP、RDKit指纹、MACCS密钥和特定于任务的指纹)中的每一种的训练集进行了5次交叉验证。FCNN由两个隐含层组成,并在隐含层中使用定义为RELU(X)=max(x,0)的修正线性单元(RELU)作为激活函数来引入非线性。我们在每个隐藏层之后应用了批量归一化。此外,我们在每一层都使用了L2正则化,以防止过拟合。
4)将提取到的两个特征向量连接成单个向量,并将该向量输入到回归网络中以进行KM预测。
将步骤3)提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量,并将其输入到回归网络中来预测KM值。
实验结果如图5所示,把从BRENDA和Sabio-RK数据库中提取并预处理的数据嵌入本发明的模型中进行KM的预测,横坐标是真实结果,纵坐标是预测结果。大多数的预测结果和真实结果是符合或者接近的,少数误差较大的结果也在可接受的范围之内,说明本发明的模型提高了预测的准确性。
Claims (9)
1.一种酶-底物亲和力常数KM预测的方法,其特征在于,所述方法包括如下步骤:1)构建蛋白质和化合物序列语料库用来训练模型,2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵,3)将张量矩阵输入到卷积神经网络进行特征提取,获得特征向量;4)将提取到的两个特征向量连接成单个向量,并将该向量输入到回归网络中以进行KM预测。
2.根据权利要求1所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,所述的构建蛋白质和化合物序列语料库用来训练模型:构建针对特定任务的语料库训练ELECTRA模型,以获得输入序列的编码层;SMILES字符串中每个原子和化学键都是一个单词,通过收集许多化合物来自然地组成语料库,使用Open Babel将语料库中的所有SMILES字符串转换为规范格式;与SMILES字符串类似,从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库,把每个残基看成一个单词,利用UniProt数据库收集蛋白质信息;
利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量;ELECTRA使用两个Transformer编码器作为基础结构,一个充当生成器网络,另一个充当鉴别器网络;来自SMILES字符串的标记首先被屏蔽,一些被替换为具有固定概率的屏蔽符号[MASK];然后,将[MASK]标记输入生成器,与鉴别器进行联合预训练。
3.根据权利要求1所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,所述的提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型,构建张量矩阵:使用经过训练的ELECTRA模型,从BRENDA数据库中提取代表底物信息的SMILES字符串和代表酶信息的氨基酸序列,分别嵌入到张量中,输出张量矩阵。
4.根据权利要求3所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,对于单个化合物,来自其SMILES字符串的标记序列被输入经过训练的ELECTRA-M模型以产生复合编码。
5.根据权利要求3所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,所述每个字符被转换成一个长度为WC的向量通过ELECTRA-M,然后是一系列的令牌被转换为一个长度为NC的序列,最终连接成一个WC×NC的张量矩阵作为复合表示;以同样的方式,一个蛋白质残基标记被编码成一个长度为WP由ELECTRA-P和长度为NP的氨基酸序列连接成一个WP×NP张量矩阵。
6.根据权利要求3所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,将张量矩阵输入到卷积神经网络进行特征提取,获得特征向量:把代表底物信息的SMILES字符串特征张量矩阵和代表蛋白质信息的氨基酸序列特征张量矩阵分别输入到两个相同的特征提取器网络中进行特征提取,获得SMILES字符串特征向量和氨基酸序列特征向量;使用一维卷积来投影输入化合物或蛋白质,将其张量X∈RT×256进入特征图U∈RT×C执行特征重新校准。
7.根据权利要求1所述的一种酶-底物亲和力常数KM预测的方法,其特征在于,将提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量,并将其输入到回归网络中来预测KM值。
8.一种计算机可读存储介质,其特征在于,所述存储介质有计算机程序,所述计算机程序能够运行权利要求1所述的酶-底物亲和力常数预测方法。
9.一种酶-底物亲和力常数预测装置,其特征在于,所述装置搭载权利要求8所述计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206869.0A CN116417062B (zh) | 2023-03-07 | 2023-03-07 | 酶-底物亲和力常数预测方法、存储介质和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206869.0A CN116417062B (zh) | 2023-03-07 | 2023-03-07 | 酶-底物亲和力常数预测方法、存储介质和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116417062A true CN116417062A (zh) | 2023-07-11 |
CN116417062B CN116417062B (zh) | 2023-09-15 |
Family
ID=87052342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206869.0A Active CN116417062B (zh) | 2023-03-07 | 2023-03-07 | 酶-底物亲和力常数预测方法、存储介质和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116417062B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102507470A (zh) * | 2011-10-20 | 2012-06-20 | 重庆医科大学 | 联用酶反应过程分析法和终点平衡法测定酶底物量的方法 |
CN112562781A (zh) * | 2020-12-08 | 2021-03-26 | 中国石油大学(华东) | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 |
CN112562790A (zh) * | 2020-12-09 | 2021-03-26 | 中国石油大学(华东) | 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
US20220013194A1 (en) * | 2020-07-09 | 2022-01-13 | Brian Hie | Escape profiling for therapeutic and vaccine development |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
KR20220071064A (ko) * | 2020-11-23 | 2022-05-31 | 주식회사 아론티어 | 유사도 기반의 합성곱 신경망을 이용한 약물-표적 결합 친화도의 예측 방법 및 이를 위한 시스템 |
CN114724623A (zh) * | 2022-04-29 | 2022-07-08 | 中国海洋大学 | 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法 |
CN115497554A (zh) * | 2022-09-29 | 2022-12-20 | 电子科技大学 | 预测药物化合物与作用靶点之间亲和力大小的量子系统 |
-
2023
- 2023-03-07 CN CN202310206869.0A patent/CN116417062B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102507470A (zh) * | 2011-10-20 | 2012-06-20 | 重庆医科大学 | 联用酶反应过程分析法和终点平衡法测定酶底物量的方法 |
US20220013194A1 (en) * | 2020-07-09 | 2022-01-13 | Brian Hie | Escape profiling for therapeutic and vaccine development |
KR20220071064A (ko) * | 2020-11-23 | 2022-05-31 | 주식회사 아론티어 | 유사도 기반의 합성곱 신경망을 이용한 약물-표적 결합 친화도의 예측 방법 및 이를 위한 시스템 |
CN112562781A (zh) * | 2020-12-08 | 2021-03-26 | 中国石油大学(华东) | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 |
CN112562790A (zh) * | 2020-12-09 | 2021-03-26 | 中国石油大学(华东) | 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
CN114724623A (zh) * | 2022-04-29 | 2022-07-08 | 中国海洋大学 | 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法 |
CN115497554A (zh) * | 2022-09-29 | 2022-12-20 | 电子科技大学 | 预测药物化合物与作用靶点之间亲和力大小的量子系统 |
Non-Patent Citations (2)
Title |
---|
郭延哺等: "基于卷积长短时记忆神经网络的蛋白质二级结构预测", 模式识别与人工智能, no. 06 * |
黄纪民等: "α-淀粉酶Amy7C及其突变体催化常数的定量预测", 广西科学院学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN116417062B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210032B (zh) | 文本处理方法及装置 | |
CN112131888B (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
KR20220111215A (ko) | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 | |
CN111400492B (zh) | 基于sfm-dcnn的层次特征文本分类方法和系统 | |
CN114999565B (zh) | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 | |
CN112489722A (zh) | 药物靶点结合能预测方法及装置 | |
CN114841261B (zh) | 增量宽度和深度学习的药物反应预测方法、介质和设备 | |
CN114386436B (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN117236335B (zh) | 基于提示学习的两阶段命名实体识别方法 | |
CN112151127A (zh) | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116072227A (zh) | 海洋营养成分生物合成途径挖掘方法、装置、设备和介质 | |
CN114582448A (zh) | 基于预训练语言模型的疫情病例信息抽取框架构建方法 | |
CN112712099B (zh) | 一种基于双层知识蒸馏说话人模型压缩系统和方法 | |
CN117831609A (zh) | 一种蛋白质二级结构预测方法、装置及计算机装置 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN116417062B (zh) | 酶-底物亲和力常数预测方法、存储介质和装置 | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
CN115116549A (zh) | 细胞数据注释方法、装置、设备及介质 | |
CN113961715A (zh) | 实体链接方法、装置、设备、介质及计算机程序产品 | |
Pellegrain | Harnessing the Power of Multimodal and Textual Data in Industry 4.0 | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 | |
Wang et al. | Neuromorphic Text Emotion Recognition: Harnessing Bio-Inspired Computing for Energy-Efficient and Robust Solution | |
CN117875424B (zh) | 一种基于实体描述和对称关系的知识图谱补全方法及系统 | |
CN118212974A (zh) | 一种基于多源特征交互的药物靶标相互作用预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |