CN116206696A - 一种酶动力学参数预测方法及装置 - Google Patents

一种酶动力学参数预测方法及装置 Download PDF

Info

Publication number
CN116206696A
CN116206696A CN202310470992.3A CN202310470992A CN116206696A CN 116206696 A CN116206696 A CN 116206696A CN 202310470992 A CN202310470992 A CN 202310470992A CN 116206696 A CN116206696 A CN 116206696A
Authority
CN
China
Prior art keywords
enzyme
representation
sequence
molecular structure
kinetic parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310470992.3A
Other languages
English (en)
Other versions
CN116206696B (zh
Inventor
余函
邓华祥
罗小舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202310470992.3A priority Critical patent/CN116206696B/zh
Publication of CN116206696A publication Critical patent/CN116206696A/zh
Application granted granted Critical
Publication of CN116206696B publication Critical patent/CN116206696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种酶动力学参数预测方法及装置。该方法及装置包括:S101:利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;S102:利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;S103:建立酶序列和分子结构的表示与酶动力学参数之间的关系;S104:基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。本发明能够有效的加速酶筛选的过程。

Description

一种酶动力学参数预测方法及装置
技术领域
本发明涉及生物医药领域,具体而言,涉及一种酶动力学参数预测方法及装置。
背景技术
理解酶对特定底物的催化效率是一个关键且基本的生物学问题,它影响代谢、代谢物浓度和流量,以及酶中的资源配置。酶的转换数和米氏常数,在很大程度上反映了酶与底物结合的催化活性。目前,这类值的测量主要依赖于实验测量,但这对人类要求高、耗时且昂贵,因此实验测量的数据库很小。除了传统的实验方法,随着机器学习、深度学习等计算技术的发展,基于计算的方法对酶动力学参数进行预测也成为了另一类重要的研究方案。近期的相关研究包括,Simon验证了基于统计学习可以很好地预测酶动力学参数。Heckmann证明,机器学习可以基于酶生物化学、蛋白质结构和网络环境预测大肠杆菌中的酶催化的转换数。更具代表性的是,Feiran提出了仅基于底物结构和蛋白质序列,利用深度学习技术来预测酶的转换数,实现了高通量预测。Alexander利用深度学习方法,从结构特征出发实现了基因组层次的米氏常数的预测。
综上,现有的方法可以分为两类,一类是基于复杂的生化信息,例如酶生物化学、蛋白质结构和网络环境等信息,但是由于缺少广泛的数据集,无法实现高通量跨物种的预测,极大的限制了该方法的发展;另一类方法是直接基于酶序列和底物结构,由于这类方法对数据的要求较为简单,可以实现高通量的预测,目前逐渐成为主流的解决方案。但是这类方法目前主要集中在传统的机器学习模型,卷积神经网络,图神经网络等方法,预测的性能较差,难以在真实的案例中应用。
发明内容
本发明实施例提供了一种酶动力学参数预测方法及装置,以能够有效的加速酶筛选的过程。
根据本发明的一实施例,提供了一种酶动力学参数预测方法,包括以下步骤:
S101:利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
S102:利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
S103:建立酶序列和分子结构的表示与酶动力学参数之间的关系;
S104:基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
进一步地,在步骤S101中,自监督语言模型包括Transformer、BERT一般常见的语言模型。
进一步地,在步骤S101中,利用自监督语言模型对酶的氨基酸序列进行训练的过程包含目前所有公开可获得的酶序列。
进一步地,酶序列的表示包括酶的表示嵌入,分子结构的表示包括底物的表示嵌入。
进一步地,在步骤S103中,酶序列和分子结构的表示与酶动力学参数之间的关系包括酶的转换数、酶的米氏常数和两者之间的比值。
进一步地,在步骤S103中,利用机器学习算法建立酶序列和分子结构的表示与酶动力学参数之间的关系。
进一步地,机器学习算法包括极端提升树机器学习模型、随机森林机器一般常见的机器学习模型。
进一步地,在步骤S104中,基于局部比对算法的搜索工具将新酶与数据库内的酶进行比对。
进一步地,在步骤S104中,预设个数包括500或1000常见的数值。
根据本发明的另一实施例,提供了一种酶动力学参数预测装置,包括:
酶表示学习单元,用于利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
底物表示学习单元,用于利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
关系建立单元,用于建立酶序列和分子结构的表示与酶动力学参数之间的关系;
比对预测单元,用于基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
一种存储介质,存储介质存储有能够实现上述任意一项酶动力学参数预测方法的程序文件。
一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的酶动力学参数预测方法。
本发明实施例中的酶动力学参数预测方法及装置,基于Transformer等自监督语言模型生成的良好的酶序列表示和底物结构信息的表示,再结合代表性的机器学习方法如极端提升树建立这个表示信息和对应酶动力学参数之间的关系,基于已有的酶转换数数据集和米氏常数数据集验证了该方法是有效的,同时利用该模型在真实的实验案例上测试,该方法能够有效的加速酶筛选的过程。
附图说明
图1为本发明酶动力学参数预测方法的流程图;
图2为本发明酶动力学参数预测方法第二方面的流程图;
图3为本发明酶动力学参数预测装置的模块图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明一实施例,提供了一种酶动力学参数预测方法,参见图1,包括以下步骤:
S101:利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
S102:利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
S103:建立酶序列和分子结构的表示与酶动力学参数之间的关系;
S104:基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
本发明实施例中的酶动力学参数预测方法,基于Transformer等自监督语言模型生成的良好的酶序列表示和底物结构信息的表示,再结合代表性的机器学习方法如极端提升树建立这个表示信息和对应酶动力学参数之间的关系,基于已有的酶转换数数据集和米氏常数数据集验证了该方法是有效的,同时利用该模型在真实的实验案例上测试,该方法能够有效的加速酶筛选的过程。
其中,在步骤S101中,自监督语言模型包括Transformer、BERT等常见的语言模型。
其中,在步骤S101中,利用自监督语言模型对酶的氨基酸序列进行训练的过程包含目前所有公开可获得的酶序列。
其中,酶序列的表示包括酶的表示嵌入,分子结构的表示包括底物的表示嵌入。
其中,在步骤S103中,酶序列和分子结构的表示与酶动力学参数之间的关系包括酶的转换数、酶的米氏常数和两者之间的比值。
其中,在步骤S103中,利用机器学习算法建立酶序列和分子结构的表示与酶动力学参数之间的关系。
其中,机器学习算法包括极端提升树、随机森林等常见的机器学习模型。
其中,在步骤S104中,基于局部比对算法的搜索工具将新酶与数据库内的酶进行比对。
其中,在步骤S104中,预设个数包括500或1000等常见的数值设置。
下面以具体实施例,对本发明的酶动力学参数预测方法进行详细说明:
本发明旨在利用Transformer等自监督语言模型生成的良好的酶序列表示和底物结构信息的表示,再结合代表性的机器学习方法如极端提升树建立这个表示信息和对应酶动力学参数之间的关系,基于已有的酶转换数数据集和米氏常数数据集验证了该方法是有效的,同时利用该模型在真实的实验案例上测试,该方法能够有效的加速酶筛选的过程。
鉴于此,本发明提出了一种酶动力学参数预测方法,基于预训练语言模型和机器学习模型来实现精准的预测酶动力学参数,包括酶的转换数和米氏常数。
本发明的技术方案详细阐述如下:
在本发明的第一方面,利用自监督语言模型对酶的氨基酸序列进行训练,该过程可包含目前所有公开可获得的酶序列,通过学习获得一个酶序列的表示,如Transformer,BERT等语言模型,包括但不仅限于这类方法;类似地,利用语言模型对分子结构的简化分子线性输入规范(Simplified molecular input line entry system,SMILES)表示进行自监督学习,获得分子结构的表示;利用上述训练好的两个自监督语言模型分别生成酶和底物的表示嵌入。
在本发明的第二方面,利用机器学习算法建立第一方面学得的酶和底物表示与酶动力学参数之间的关系,包括酶的转换数,酶的米氏常数和两者之间的比值。该机器学习算法包括极端提升树,随机森林等常见的机器学习模型。然后在酶的转换数和米氏常数两个数据集上进行测试,发现性能可以远超当前的模型。该部分的流程图如附图2所示。
该发明的第三方面,基于上述预测酶动力学习参数的方法,本发明提出基于多序列比对的新酶搜索过程,具体为:基于某个潜在的野生型酶A,需要找到对特定底物B催化效率更高的酶A的变体酶C。首先基于多序列比对方法将酶A与数据库内的酶进行比对,找到最相似的前1000个酶变体,包括但不限于基于局部比对算法的搜索工具(Basic LocalAlignment Search Tool,BLAST)。然后基于第一方面和第二方面提出的预测方法对这1000个酶的动力学参数进行预测,挑选出最高的进行实验验证,本发明在酪氨酸氨解酶(tyrosine ammonia lyase,TAL)上测试发现有效,包括但不限于1000、500等参数设置。
与现有技术相比,本发明的优点为:
1.预测的精度更高,在开源的数据集上测试决定系数超过目前的模型将近20个百分点;
2.在真实的实验案例上进行了测试,以酪氨酸氨解酶为例提出了新酶的筛选流程。
本发明分别在计算机模拟和实验验证两方面对方法进行了验证。在计算机模型方面,本发明选择了目前开源的酶的转换数和米氏常数两个数据集,本发明提出的方法远优于之前的模型。在实验方面,本发明以酪氨酸氨解酶为模板,证明了该方法可以帮助筛选更强的变体。
本发明的变更设计(替代方案)及其它用途为:
1、其他的自监督学习模型来对进行酶序列或底物结构的学习;
2、其他的新酶筛选的流程。
实施例2
根据本发明的另一实施例,提供了一种酶动力学参数预测装置,参见图3,包括:
酶表示学习单元201,用于利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
底物表示学习单元202,用于利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
关系建立单元203,用于建立酶序列和分子结构的表示与酶动力学参数之间的关系;
比对预测单元204,用于基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
本发明实施例中的酶动力学参数预测装置,基于Transformer等自监督语言模型生成的良好的酶序列表示和底物结构信息的表示,再结合代表性的机器学习方法如极端提升树建立这个表示信息和对应酶动力学参数之间的关系,基于已有的酶转换数数据集和米氏常数数据集验证了该方法是有效的,同时利用该模型在真实的实验案例上测试,该方法能够有效的加速酶筛选的过程。
下面以具体实施例,对本发明的酶动力学参数预测装置进行详细说明:
本发明旨在利用Transformer等自监督语言模型生成的良好的酶序列表示和底物结构信息的表示,再结合代表性的机器学习方法如极端提升树建立这个表示信息和对应酶动力学参数之间的关系,基于已有的酶转换数数据集和米氏常数数据集验证了该方法是有效的,同时利用该模型在真实的实验案例上测试,该方法能够有效的加速酶筛选的过程。
鉴于此,本发明提出了一种酶动力学参数预测装置,基于预训练语言模型和机器学习模型来实现精准的预测酶动力学参数,包括酶的转换数和米氏常数。
本发明的技术方案详细阐述如下:
在本发明的第一方面,利用自监督语言模型对酶的氨基酸序列进行训练,该过程可包含目前所有公开可获得的酶序列,通过学习获得一个酶序列的表示,如Transformer,BERT等语言模型,包括但不仅限于这类方法;类似地,利用语言模型对分子结构的简化分子线性输入规范(Simplified molecular input line entry system,SMILES)表示进行自监督学习,获得分子结构的表示;利用上述训练好的两个自监督语言模型分别生成酶和底物的表示嵌入。
在本发明的第二方面,利用机器学习算法建立第一方面学得的酶和底物表示与酶动力学参数之间的关系,包括酶的转换数,酶的米氏常数和两者之间的比值。该机器学习算法包括极端提升树,随机森林等常见的机器学习模型。然后在酶的转换数和米氏常数两个数据集上进行测试,发现性能可以远超当前的模型。该部分的流程图如附图2所示。
该发明的第三方面,基于上述预测酶动力学习参数的方法,本发明提出基于多序列比对的新酶搜索过程,具体为:基于某个潜在的野生型酶A,需要找到对特定底物B催化效率更高的酶A的变体酶C。首先基于多序列比对方法将酶A与数据库内的酶进行比对,找到最相似的前1000个酶变体,包括但不限于基于局部比对算法的搜索工具(Basic LocalAlignment Search Tool,BLAST)。然后基于第一方面和第二方面提出的预测方法对这1000个酶的动力学参数进行预测,挑选出最高的进行实验验证,本发明在酪氨酸氨解酶(tyrosine ammonia lyase,TAL)上测试发现有效,包括但不限于1000、500等参数设置。
与现有技术相比,本发明的优点为:
1.预测的精度更高,在开源的数据集上测试决定系数超过目前的模型将近20个百分点;
2.在真实的实验案例上进行了测试,以酪氨酸氨解酶为例提出了新酶的筛选流程。
本发明分别在计算机模拟和实验验证两方面对方法进行了验证。在计算机模型方面,本发明选择了目前开源的酶的转换数和米氏常数两个数据集,本发明提出的方法远优于之前的模型。在实验方面,本发明以酪氨酸氨解酶为模板,证明了该方法可以帮助筛选更强的变体。
本发明的变更设计(替代方案)及其它用途为:
1、其他的自监督学习模型来对进行酶序列或底物结构的学习;
2、其他的新酶筛选的流程。
实施例3
一种存储介质,存储介质存储有能够实现上述任意一项酶动力学参数预测方法的程序文件。
实施例4
一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的酶动力学参数预测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种酶动力学参数预测方法,其特征在于,包括以下步骤:
S101:利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
S102:利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
S103:建立酶序列和分子结构的表示与酶动力学参数之间的关系;
S104:基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
2.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S101中,自监督语言模型包括Transformer、BERT一般常见的语言模型。
3.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S101中,利用自监督语言模型对酶的氨基酸序列进行训练的过程包含目前所有公开可获得的酶序列。
4.根据权利要求1所述的酶动力学参数预测方法,其特征在于,酶序列的表示包括酶的表示嵌入,分子结构的表示包括底物的表示嵌入。
5.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S103中,酶序列和分子结构的表示与酶动力学参数之间的关系包括酶的转换数、酶的米氏常数和两者之间的比值。
6.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S103中,利用机器学习算法建立酶序列和分子结构的表示与酶动力学参数之间的关系。
7.根据权利要求6所述的酶动力学参数预测方法,其特征在于,机器学习算法包括极端提升树机器学习模型、随机森林机器一般常见的机器学习模型。
8.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S104中,基于局部比对算法的搜索工具将新酶与数据库内的酶进行比对。
9.根据权利要求1所述的酶动力学参数预测方法,其特征在于,在步骤S104中,预设个数包括500或1000常见的数值。
10.一种酶动力学参数预测装置,其特征在于,包括:
酶表示学习单元,用于利用自监督语言模型对酶的氨基酸序列进行训练学习,获得酶序列的表示;
底物表示学习单元,用于利用自监督语言模型对分子结构的简化分子线性输入规范表示进行自监督学习,获得分子结构的表示;
关系建立单元,用于建立酶序列和分子结构的表示与酶动力学参数之间的关系;
比对预测单元,用于基于多序列比对的新酶搜索过程,将新酶与数据库内的酶进行比对,找到最相似的前预设个数酶变体,根据建立的酶序列和分子结构的表示与酶动力学参数之间的关系,对前预设个数酶变体进行动力学参数预测,挑选出酶动力学参数最高的数个酶变体。
CN202310470992.3A 2023-04-27 2023-04-27 一种酶动力学参数预测方法及装置 Active CN116206696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310470992.3A CN116206696B (zh) 2023-04-27 2023-04-27 一种酶动力学参数预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310470992.3A CN116206696B (zh) 2023-04-27 2023-04-27 一种酶动力学参数预测方法及装置

Publications (2)

Publication Number Publication Date
CN116206696A true CN116206696A (zh) 2023-06-02
CN116206696B CN116206696B (zh) 2024-04-19

Family

ID=86514994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310470992.3A Active CN116206696B (zh) 2023-04-27 2023-04-27 一种酶动力学参数预测方法及装置

Country Status (1)

Country Link
CN (1) CN116206696B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109486778A (zh) * 2018-10-22 2019-03-19 浙江科技学院 一种基于共进化网络的ω-转氨酶突变体以及制备方法和应用
CN112582031A (zh) * 2020-12-24 2021-03-30 江南大学 结合高压分子动力学模拟、自由能计算改善水解酶鲁棒性
US20220122689A1 (en) * 2020-10-15 2022-04-21 Salesforce.Com, Inc. Systems and methods for alignment-based pre-training of protein prediction models
WO2022185179A1 (en) * 2021-03-02 2022-09-09 Glaxosmithkline Biologicals Sa Natural language processing to predict properties of proteins
US20220359045A1 (en) * 2021-05-07 2022-11-10 International Business Machines Corporation Prediction of enzymatically catalyzed chemical reactions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109486778A (zh) * 2018-10-22 2019-03-19 浙江科技学院 一种基于共进化网络的ω-转氨酶突变体以及制备方法和应用
US20220122689A1 (en) * 2020-10-15 2022-04-21 Salesforce.Com, Inc. Systems and methods for alignment-based pre-training of protein prediction models
CN112582031A (zh) * 2020-12-24 2021-03-30 江南大学 结合高压分子动力学模拟、自由能计算改善水解酶鲁棒性
WO2022185179A1 (en) * 2021-03-02 2022-09-09 Glaxosmithkline Biologicals Sa Natural language processing to predict properties of proteins
US20220359045A1 (en) * 2021-05-07 2022-11-10 International Business Machines Corporation Prediction of enzymatically catalyzed chemical reactions

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHIQING XU等: "Enzyme Activity Prediction of Sequence Variants on Novel Substrates using Improved Substrate Encodings and Convolutional Pooling", 《PROCEEDINGS OF MACHINE LEARNING RESEARCH》, vol. 3, pages 78 - 93 *
卞佳豪等: "人工智能辅助的蛋白质工程", 《合成生物学》, vol. 3, no. 3, pages 437 *
段力文: "基于改进混合多标签分类器的蛋白质分类研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 01, pages 006 - 433 *

Also Published As

Publication number Publication date
CN116206696B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
Tibbs Cortes et al. Status and prospects of genome‐wide association studies in plants
US11915104B2 (en) Normalizing text attributes for machine learning models
Quental et al. Diversity dynamics: molecular phylogenies need the fossil record
Stanley et al. genepopedit: A simple and flexible tool for manipulating multilocus molecular data in R
CN110502277B (zh) 一种基于bp神经网络的代码坏味检测方法
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
Svensson et al. Quantifying the tradeoff between sequencing depth and cell number in single-cell RNA-seq
Azad et al. Use of artificial genomes in assessing methods for atypical gene detection
Jungreuthmayer et al. Avoiding the enumeration of infeasible elementary flux modes by including transcriptional regulatory rules in the enumeration process saves computational costs
CN116206696B (zh) 一种酶动力学参数预测方法及装置
Rodríguez et al. Mining association rules from biological databases
Frey et al. Energy-aware neural architecture selection and hyperparameter optimization
CN113656183B (zh) 任务处理方法、装置、设备及存储介质
US11823066B2 (en) Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
JP4918868B2 (ja) 入力値選定プログラム、入力値選定方法および入力値選定装置
Hazledine et al. Nonlinear time series analysis of nodulation factor induced calcium oscillations: evidence for deterministic chaos?
Yang et al. Decoding microbiome and protein family linkage to improve protein structure prediction
Martini et al. Meta-analysis of gene activity (maga) contributions and correlation with gene expression, through gagam
Johnson et al. Recombination rate inference via deep learning is limited by sequence diversity
Madan et al. Comparison of benchmarks for machine learning cloud infrastructures
Ai et al. Identifying local associations in biological time series: algorithms, statistical significance, and applications
Johnson Improving methods of evolutionary inference
Volkert Investigating ea based training of hmm using a sequential parameter optimization approach
CN113656279B (zh) 基于残差网络和度量注意机制的代码气味检测方法
US11823065B2 (en) Enterprise market volatility predictions through synthetic DNA and mutant nucleotides

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant