CN115295070A - 基于人工智能的生物大分子量子力学特性计算方法及系统 - Google Patents

基于人工智能的生物大分子量子力学特性计算方法及系统 Download PDF

Info

Publication number
CN115295070A
CN115295070A CN202210947309.6A CN202210947309A CN115295070A CN 115295070 A CN115295070 A CN 115295070A CN 202210947309 A CN202210947309 A CN 202210947309A CN 115295070 A CN115295070 A CN 115295070A
Authority
CN
China
Prior art keywords
conformation
biomacromolecule
quantum mechanical
potential energy
conformations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210947309.6A
Other languages
English (en)
Inventor
李金金
韩彦强
汪志龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wei Zhiyun
Original Assignee
Shanghai Yinpeptide Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yinpeptide Information Technology Co ltd filed Critical Shanghai Yinpeptide Information Technology Co ltd
Priority to CN202210947309.6A priority Critical patent/CN115295070A/zh
Publication of CN115295070A publication Critical patent/CN115295070A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于人工智能的生物大分子量子力学特性计算方法及系统,通过将生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构,进行构象采样得到若干分块构象,选择量子力学方法对分块构象量化计算,得到各分块构象的量化计算结果和构象量化数据集,建立不同分块结构的特征工程,并搭建相应的初始模型,并将构象量化数据集作为训练集,将量化计算结果作为标签对初始模型进行训练,得到不同分块结构的势能面预测模型;将不同分块结构的势能面预测模型与力场参数进行整合,得到生物大分子体系的势能面预测模型,对待测生物大分子进行量子力学特性计算。本发明能够提高生物大分子体系的量子力学特性的计算精度和计算效率。

Description

基于人工智能的生物大分子量子力学特性计算方法及系统
技术领域
本发明涉及人工智能和生物医药技术领域,特别是涉及一种基于人工智能的生物大分子量子力学特性计算方法及系统。
背景技术
生物医药、食品保健、工业生产等领域的发展都离不开生物技术的发展。生物医药研究是人民生命健康和国民经济稳定的基础支撑,被公认为21世纪最有前途的产业之一。随着生物技术的发展和产业化需求的不断升级,生物医药等科学研究的生物体系越来越大,越来越复杂,现有实验手段和计算方法已经无法满足生物体系研究的精度、效率和成本要求。生物体系的实验研究包括结构解析、活性测试、性能表征等复杂过程,通常需要冷冻电镜、细胞房、蛋白纯化仪、以及液相色谱仪等生物化学、分子生物学研究设备,对人力、物力和财力的要求非常高,而且存在巨大的风险。随着计算机领域的不断发展,计算生物学和生物信息学也取得了巨大进步,在生物体系高效计算、结构改造等方面发挥了重要作用,而且有助于从基础理论层面对实验现象和生物体系性能功能做出机制解析。然而,目前多数基于力场和经验的计算方法无法达到和实验接近的计算结果。量子力学方法作为计算领域的黄金标准,理论上能够达到最高精度,但是这类方法计算复杂度极高,计算量巨大,无法直接应用于结构复杂的生物大分子体系能量和性质计算,严重限制了生物医药等领域中药物、酶蛋白等分子筛选和改造的发展。
近年来,人工智能技术的快速发展已经成为各领域不可忽视的技术手段。其中包含了模型、策略和算法三要素的机器学习方法能够在大数据中挖掘背后隐藏的物理化学信息和结构-性质功能机制,极大提高计算效率。虽然机器学习方法在化学、材料科学以及生物信息学领域获得了广泛的应用,但是机器学习方法在生物大分子体系中的应用仍然存在巨大挑战。首先机器学习模型通常只针对单一体系和单一性质,无法实现跨体系(比如不同蛋白质,RNA和DNA分子)和多性质(能量、稳定性、生物活性等)的预测。其次机器学习方法一般具有黑盒子特性,无法给出物理化学机制的解析。最后,机器学习模型的质量主要依赖于数据集的数量和质量,而量子力学方法的高计算复杂度使得生物大分子体系的高质量量化数据难以获取,从而无法实现构建可靠的机器学习模型,在量子力学方法精度水平上研究生物大分子体系。
如何以人工智能技术为基础,实现生物大分子体系不同任务(能量、原子力以及性质功能)在量子力学精度下的高效计算和作用机制解析,是计算生物学领域亟待进一步解决的重大难题。
发明内容
本发明的目的是提供一种基于人工智能的生物大分子量子力学特性计算方法及系统,能够提高生物大分子体系的量子力学特性的计算精度和计算效率。
为实现上述目的,本发明提供了如下方案:
本发明提供了一种基于人工智能的生物大分子量子力学特性计算方法,所述方法包括:
获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种;
对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力;
基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程;
基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型;
将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;
通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。
可选地,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。
可选地,所述对各所述分块结构进行构象采样,得到若干分块构象,并选择对应量子力学方法对所有分块构象进行量化计算,得到每个构象结构对应的量化计算结果,并确定不同分块结构的构象量化数据集,具体包括:
采用Amber软件对各所述分块结构进行交换副本动力学模拟,同时在模拟过程中对各所述分块结构的骨架原子进行手性限制;
基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹;
按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息;
基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果;
根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。
可选地,所述通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算,具体包括:
通过将不同分块结构的势能面模型预测结果累加,并减去分块结构之间重叠部分的势能面预测结果,再加上通过基础力场参数计算的远程相互作用结果,得到待测生物大分子的量子力学特性计算结果。
可选地,当所述生物大分子为蛋白质时,所述基础力场为protein.fb15、protein.ff14SB或protein.f19SB;
当所述生物大分子为RNA质时,所述基础力场为RNA.OL3或RNA.ROC;
当所述生物大分子为DNA时,所述基础力场为DNA.BSC1或DNA.OL15。
为实现上述目的,本发明还提供了如下方案:
一种基于人工智能的生物大分子量子力学特性计算系统,所述系统包括:
分块结构获取单元,用于获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种;
构象量化数据集确定单元,用于对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力;
特征工程建立单元,用于基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程;
不同分块结构的势能面预测模型构建单元,用于基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型;
生物大分子体系的势能面预测模型确定单元,用于将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;
量子力学特性计算单元,用于通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。
可选地,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。
可选地,所述构象量化数据集确定单元,具体包括:
动力学模拟子单元,用于采用Amber软件对各所述分块结构进行交换副本动力学模拟,同时在模拟过程中对各所述分块结构的骨架原子进行手性限制;
动态轨迹确定子单元,用于基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹;
构象抓取和信息获取子单元,用于按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息;
量化计算结果确定子单元,用于基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果;
构象量化数据集确定子单元,用于根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于人工智能的生物大分子量子力学特性计算方法及系统,所述方法包括:获取生物大分子,并将生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;对各分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程;基于不同分块结构的特征工程,分别搭建相应的初始模型,并将构象量化数据集作为训练集,将量化计算结果作为标签,对初始模型进行训练,得到不同分块结构的势能面预测模型;将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。本发明能够提高生物大分子体系的量子力学特性的计算精度和计算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于人工智能的生物大分子量子力学特性计算方法的流程图;
图2为本发明基于人工智能的生物大分子量子力学特性计算系统的模块结构示意图;
图3为实施例1中21种蛋白质单体分块的势能面模型精度对比图;
图4为实施例1中蛋白质(4djg)的分块能量预测对比图;
图5为实施例1中蛋白质(4djg)原子力的预测对比图;
图6为实施例2中蛋白质20种单体分块和9种二体分块的势能面模型精度对比图;
图7为实施例2中蛋白质(2cuo)分块能量预测对比图;
图8为实施例2中蛋白质(2cuo)原子力的预测对比图;
图9为实施例3中5种RNA单体分块的势能面模型精度对比图;
图10为实施例3中RNA(1r4h)分块能量预测对比图;
图11为实施例3中RNA(1r4h)原子力的预测对比图;
图12为实施例4中5种DNA单体分块的势能面模型精度对比图;
图13为实施例4中DNA(1d37)分块能量预测对比图;
图14为实施例4中DNA(1d37)原子力的预测对比图。
符号说明:
分块结构获取单元-1,构象量化数据集确定单元-2,特征工程建立单元-3,不同分块结构的势能面预测模型构建单元-4,生物大分子体系的势能面预测模型确定单元-5,量子力学特性计算单元-6。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于人工智能的生物大分子量子力学特性计算方法及系统,能够提高生物大分子体系的量子力学特性的计算精度和计算效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明一种基于人工智能的生物大分子量子力学特性计算方法,包括:
S1:获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种。在生物大分子类型确定的前提下,按照生物大分子的基本组成单元进行化学键切割,蛋白质、RNA和DNA的切割基本单元分别是氨基酸(残基)、核糖核苷酸和脱氧核苷酸。
S2:对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力。
S3:基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程。
S4:基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型。
S5:将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;通过量子力学计算得到的构象量化数据集,每一种不同的分块都有单独的势能面预测模型,对任意生物大分子体系进行量子力学精度的计算,实现对能量、原子力以及基态性质的预测,相对误差不超过10%,预测速度比量子力学方法快3个数量级以上。
S6:通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。生物大分子体系的量子力学特性计算,可以实现蛋白质稳定性评估、结构性质预测以及动态模拟等研究过程,可以应用于药物研发以及酶蛋白智能设计改造等产业领域。
进一步地,步骤S1中,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。获得的分块结构可以是生物大分子基本组成单元的单体、二体和三体中的一种或多种。
进一步地,步骤S2中,所述对各所述分块结构进行构象采样,得到若干分块构象,并选择对应量子力学方法对所有分块构象进行量化计算,得到每个构象结构对应的量化计算结果,并确定不同分块结构的构象量化数据集,具体包括:
S21:采用Amber软件对各所述分块结构进行交换副本动力学模拟(REMD),同时在模拟过程中对各所述分块结构的骨架原子进行手性限制,以避免高温导致非物理性手性变化;需要在不同采样温度下进行动力学模拟,采样温度应至少包含常温。
S22:基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹。
S23:按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息。每一种分块结构的构象数量一般在10000个以上,优选为20000个。分块结构的构象应覆盖大部分可变二面角的变化空间。
S24:基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果;其中,量子力学方法可以选择密度泛函(DFT),包括普通泛函、杂化泛函以及双杂化泛函等,也可以选择CCSD、CCSD(T)等高阶量子力学方法。
S25:根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。所述构象量化数据集应至少包含分块构象的三维坐标、势能、原子力等物理化学信息。
进一步地,步骤S3中,特征工程根据步骤S2中得到的构象量化数据集的格式来确定;可以将每个原子的坐标作为输入数据,建立相应的特征工程;也可以将生物大分子基本单元信息、结构信息(如蛋白质二级结构等)和物化性质作为输入数据和特征描述。
进一步地,步骤S4中,根据不同的机器学习方法搭建不同的初始模型,而不同的机器学习方法可以根据输入、输出数据格式和建立的特征工程确定。如果输出数据是阳性/阴性等离散的数值,则机器学习算法应选择分类算法,包括神经网络、逻辑回归、支持向量机以及随机森林等;如果输出数据是能量、原子力等连续的数据,则机器学习算法应选择回归算法,包括神经网络、线性回归、随机森林以及决策树等;如果输入数据是原子三维坐标,则优选机器学习方法为神经网络类算法,包括神经网络、深度神经网络、卷积神经网络以及图神经网络等。
进一步地,步骤S4中,在对所述初始模型进行训练时,选择相应的损失函数对所述初始模型进行训练;所述损失函数应根据预测任务的输出数据建立。若输出数据是结构势能和原子力,则损失函数应包含所有输出能量和原子力的预测误差。
进一步地,步骤S4还包括:对模型参数进行优化;在对模型参数进行初始化时可采用random函数;对参数的优化过程通过最小化损失函数以及交叉验证过程实现。
进一步地,步骤S6中,所述通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算,具体包括:
通过将不同分块结构的势能面模型预测结果累加,并减去分块结构之间重叠部分的势能面预测结果,再加上通过基础力场参数计算的远程相互作用结果,得到待测生物大分子的量子力学特性计算结果。
进一步地,整合基础力场参数是在分块结构的势能面预测模型整合的基础上,将远程相互作用按照对应生物大分子力场的参数进行校正。当所述生物大分子为蛋白质时,所述基础力场为protein.fb15、protein.ff14SB或protein.f19SB。
当所述生物大分子为RNA质时,所述基础力场为RNA.OL3或RNA.ROC。
当所述生物大分子为DNA时,所述基础力场为DNA.BSC1或DNA.OL15。
如图2所示,本发明还提供了一种基于人工智能的生物大分子量子力学特性计算系统,所述系统包括:分块结构获取单元1、构象量化数据集确定单元2、特征工程建立单元3、不同分块结构的势能面预测模型构建单元4、生物大分子体系的势能面预测模型确定单元5和量子力学特性计算单元6。
分块结构获取单元1,用于获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种。
构象量化数据集确定单元2,用于对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力。
特征工程建立单元3,用于基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程。
不同分块结构的势能面预测模型构建单元4,用于基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型。
生物大分子体系的势能面预测模型确定单元5,用于将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型。
量子力学特性计算单元6,用于通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。
进一步地,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。
进一步地,所述构象量化数据集确定单元2,具体包括:
动力学模拟子单元,用于采用Amber软件对各所述分块结构进行交换副本动力学模拟,同时在模拟过程中对各所述分块结构的骨架原子进行手性限制。
动态轨迹确定子单元,用于基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹。
构象抓取和信息获取子单元,用于按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息。
量化计算结果确定子单元,用于基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果。
构象量化数据集确定子单元,用于根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。
下面结合具体实施例对本发明的技术方案进行详细说明。
实施例1
当生物大分子为蛋白质时,本发明基于人工智能的生物大分子量子力学特性计算方法包括以下步骤:
(1)首先确定蛋白质体系的量子分块方案:以蛋白质基本单元残基(氨基酸)为单位(包括Ala,Asn,Arg,Asp,Cys,Gln,Glu,Gly,His,Ile,Leu,Lys,Met,Phe,Pro,Ser,Thr,Trp,Tyr和Val共20种),在肽键处进行切割,将蛋白质分子体系分割成一系列残基单体分块,并在分块结构两端分别添加ACE和NME共轭帽末端,以恢复和平衡分块结构的局部化学环境,最终获得20种单体分块结构和一种ACE-NME共轭帽结构。
(2)进行构象采样和量化计算,得到分块结构的构象量化数据库:对于每一种分块结构(包括单体分块和共轭帽分块),通过Amber软件进行交换副本动力学模拟(REMD),采样温度设置为300K、350K、400K、450K和500K,模拟过程种分块结构的骨架原子都进行了手性限制以避免高温导致的非物理性变化;REMD以2飞秒为步长共模拟1纳秒;随后从1纳秒的动态轨迹中以平均间隔抓取共15000个构象,得到分块构象的三维坐标信息;然后选择密度泛函中的wB97XD泛函对所有构象进行量子力学计算,得到每个分块构象对应的能量、原子力等量化计算结果。最后通过数据整合,每一种分块结构可以得到一个包含15000条数据的构象量化数据库。
(3)建立特征工程,选择合适的机器学习算法构建每一种分块结构的势能面模型;因为分块结构的构象量化数据库中是以分块构象的三维坐标为输入信息,所以建立结构描述符作为特征,从每个原子位置出发,随后在周围
Figure BDA0003787790420000113
范围内的相邻原子,建立笛卡尔坐标系(x、y、z),通过径向和角度分布计算得到该原子的结构描述符;机器学习算法选择神经网络,设置为3层网络结构,每一层包含80个神经元,以分块构象的三维坐标信息为输入,相应的量化计算结果(能量和原子力)为输出;损失函数定义为能量和原子力预测结果与量化计算结果之间误差的均方根误差;数据集按照8:2的比例划分为训练集和测试集,初始学习率设置为0.005,随着训练过程不断减小,最终通过最小化损失函数的方式得到高精度高效率的分块结构势能面预测模型;所有分块结构势能面预测模型训练集和测试集中的能量平均均方根误差分别为0.53和0.51kcal/mol,原子力平均均方根误差分别为0.78和
Figure BDA0003787790420000114
预测时间小于0.1秒,速度相比wB97XD提高10000倍以上。
(4)整合分块结构势能面预测模型和力场参数,得到整个蛋白质体系的势能面预测模型,实现对任意蛋白质分子的量子力学精度计算:对于PDB ID为4djg(残基数量49)的蛋白质分子,按照步骤(1)所述量子力学分块方案得到残基单体(共49个)和共轭帽(共48个)分块,分别通过对应的分块结构势能面模型进行预测;然后将所有单体分块势能面模型预测结果累加并减去重叠的共轭帽分块势能面预测结果,再加上通过分子力场参数计算的远程相互作用结果,最终得到蛋白质4djg的计算结果,如图3-图5所示。与wB97XD泛函计算结果相比,能量和原子力计算误差分别为0.0062kcal/mol/原子和
Figure BDA0003787790420000111
Figure BDA0003787790420000112
计算时间为15.4秒,计算效率提高24564倍。
实施例2
当生物大分子为蛋白质时,本发明基于人工智能的生物大分子量子力学特性计算方法包括以下步骤:
(1)首先确定蛋白质体系的量子分块方案:以蛋白质基本单元残基(氨基酸)为单位(包括Ala,Asn,Arg,Asp,Cys,Gln,Glu,Gly,His,Ile,Leu,Lys,Met,Phe,Pro,Ser,Thr,Trp,Tyr和Val共20种),在肽键处进行切割,将蛋白质分子体系分割成一系列残基单体和二体分块(Ala-Ala,Ala-Gly等),并在分块结构两端分别添加ACE和NME共轭帽末端以恢复和平衡分块结构的局部化学环境。最终获得20种单体、9种二体(Ala-Ala、Ala-Gly、Ala-Pro、Gly-Ala、Gly-Gly、Gly-Pro、Pro-Ala、Pro-Gly和Pro-Pro)结构。
(2)进行构象采样和量化计算,得到分块结构的构象量化数据库:对于每一种分块结构(包括单体和二体),采样与实施例1相同的构象采样和量化计算方案,其中,每种分块从动态轨迹中抓取20000个构象,构建含有20000条数据的构象量化数据库。
(3)特征工程、机器学习算法以及损失函数的选择与实施例1一致,构建每一种分块结构的势能面预测模型:神经网络每层设置为100个神经元,初始学习率设置为0.003,所有分块势能面预测模型训练集和测试集中的能量平均均方根误差分别为0.46和0.50kcal/mol,原子力的平均均方根误差分别为0.79和
Figure BDA0003787790420000121
预测时间小于0.1秒,速度相比wB97XD提高10000倍以上。
(4)整合分块势能面预测模型和力场参数,得到整个蛋白质体系的势能面预测模型,实现对任意蛋白质分子的量子力学精度计算:对于PDB ID为2cuo(残基数量28)的蛋白质分子,按照步骤(1)所述量子力学分块方案得到残基单体(共26个)和二体(共27个)分块,分别通过对应的分块势能面预测模型进行预测;然后将所有二体分块势能面模型预测结果累加并减去重叠的单体分块势能面预测结果,再加上通过分子力场参数计算的远程相互作用结果,最终得到蛋白质2cuo的计算结果,如图6-图8所示,与wB97XD泛函计算结果相比,能量和原子力计算误差分别为0.0055kcal/mol/原子和
Figure BDA0003787790420000122
计算时间为14.8秒,计算效率提高20577倍。
实施例3
当生物大分子为RNA时,本发明基于人工智能的生物大分子量子力学特性计算方法包括以下步骤:
(1)首先确定RNA体系的量子分块方案:以RNA分子基本单元核糖核苷酸为单位(包括A、G、C和U共4种),在核糖核苷酸之间的磷酸二酯键处进行切割,将RNA分子体系分割成一系列核糖核苷酸单体分块,并在分块结构两端分别添加相邻核糖核苷酸结构中的共轭帽末端以恢复和平衡分块结构的局部化学环境(包括相邻核糖核苷酸以及磷酸二酯键的相互作用等)。最终获得4种单体分块结构和一种共轭帽结构。
(2)构象采样和量化计算与实施例2中一致,得到分块的构象量化数据库:力场选择RNA.OL3,从2纳秒的动态轨迹中以平均间隔抓取共20000个构象,量子力学计算得到一个包含20000条数据的构象量化数据库。
(3)特征工程、机器学习算法和损失函数与实施例2一致,构建每一种分块的势能面模型:所有分块(共5个)势能面模型训练集和测试集中的能量平均均方根误差分别为0.59和0.62kcal/mol,原子力的平均均方根误差分别为0.90和
Figure BDA0003787790420000131
预测时间小于0.1秒,速度相比wB97XD提高10000倍以上。
(4)整合分块势能面模型和RNA.OL3力场参数,得到整个RNA体系的势能面预测模型,实现对任意RNA分子的量子力学精度计算:对于PDB ID为1r4h(核糖核苷酸数量10)的RNA分子,按照步骤(1)所述量子力学分块方案得到残基单体(共10个)和共轭帽(共9个)分块,分别通过对应的分块势能面模型进行预测;然后将所有单体分块势能面模型预测结果累加并减去重叠的共轭帽分块势能面预测结果,再加上通过分子力场参数计算的远程相互作用结果,最终得到RNA的计算结果,如图9-图11所示。与wB97XD泛函计算结果相比,能量和原子力计算误差分别为0.0071kcal/mol/原子和
Figure BDA0003787790420000132
Figure BDA0003787790420000133
计算时间为12.5秒,计算效率提高19724倍。
实施例4
当生物大分子为DNA时,本发明基于人工智能的生物大分子量子力学特性计算方法包括以下步骤:
(1)首先确定DNA体系的量子分块方案:以DNA分子基本单元脱氧核苷酸为单位(包括A、G、C和T共4种),在脱氧核苷酸之间的磷酸二酯键处进行切割,将DNA分子体系分割成一系列脱氧核苷酸单体分块,并在分块结构两端分别添加相邻脱氧核苷酸结构中的共轭帽末端以恢复和平衡分块结构的局部化学环境(包括相邻脱氧核苷酸以及磷酸二酯键的相互作用等)。最终获得4种单体分块结构和一种共轭帽结构。
(2)构象采样和量化计算与实施例2中一致,得到分块的构象量化数据库:力场选择DNA.OL15,从2纳秒的动态轨迹中以平均间隔抓取共20000个构象,量子力学计算得到一个包含20000条数据的构象量化数据库。
(3)特征工程、机器学习算法和损失函数与实施例2一致,构建每一种分块的势能面模型:所有分块(共5个)势能面模型训练集和测试集中的能量平均均方根误差分别为0.61和0.63kcal/mol,原子力的平均均方根误差分别为0.88和
Figure BDA0003787790420000141
预测时间小于0.1秒,速度相比wB97XD提高10000倍以上。
(4)整合分块势能面模型和DNA.OL15力场参数,得到整个DNA体系的势能面预测模型,实现对任意DNA分子的量子力学精度计算:对于PDB ID为1d37(脱氧核苷酸数量6)的RNA分子,按照步骤(1)所述量子力学分块方案得到残基单体(共6个)和共轭帽(共5个)分块,分别通过对应的分块势能面模型进行预测;然后将所有单体分块势能面模型预测结果累加并减去重叠的共轭帽分块势能面预测结果,再加上通过分子力场参数计算的远程相互作用结果,最终得到DNA的计算结果,如图12-图14所示。与wB97XD泛函计算结果相比,能量和原子力计算误差分别为0.0066kcal/mol/原子和
Figure BDA0003787790420000142
Figure BDA0003787790420000143
计算时间为13.2秒,计算效率提高18166倍。
本发明的技术效果:
1)通过势能面和量子分块思想克服了量子力学计算复杂度高的限制,以基本组成单元的量化计算实现了生物大分子体系的人工智能模型构建和量子力学精度计算。
2)可以根据不同生物大分子体系进行量子分块方案适配,实现任意生物大分子的量子力学计算。
3)基于势能面实现了生物大分子能量、原子力以及各种基态性质的多任务预测。
4)以人工智能势能面为基础的预测模式解决了黑盒子的问题,实现了以结构和能量为基础的相互作用和性质机制解析。
5)计算效率相比量子力学方法大幅度提高,使得量子力学水平的生物大分子动态模拟成为可能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于人工智能的生物大分子量子力学特性计算方法,其特征在于,所述方法包括:
获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种;
对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力;
基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程;
基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型;
将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;
通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。
2.根据权利要求1所述的基于人工智能的生物大分子量子力学特性计算方法,其特征在于,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。
3.根据权利要求1所述的基于人工智能的生物大分子量子力学特性计算方法,其特征在于,所述对各所述分块结构进行构象采样,得到若干分块构象,并选择对应量子力学方法对所有分块构象进行量化计算,得到每个构象结构对应的量化计算结果,并确定不同分块结构的构象量化数据集,具体包括:
采用Amber软件对各所述分块结构进行交换副本动力学模拟,同时在模拟过程中对各所述分块结构的骨架原子进行手性限制;
基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹;
按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息;
基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果;
根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。
4.根据权利要求1所述的基于人工智能的生物大分子量子力学特性计算方法,其特征在于,所述通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算,具体包括:
通过将不同分块结构的势能面模型预测结果累加,并减去分块结构之间重叠部分的势能面预测结果,再加上通过基础力场参数计算的远程相互作用结果,得到待测生物大分子的量子力学特性计算结果。
5.根据权利要求1所述的基于人工智能的生物大分子量子力学特性计算方法,其特征在于,当所述生物大分子为蛋白质时,所述基础力场为protein.fb15、protein.ff14SB或protein.f19SB;
当所述生物大分子为RNA质时,所述基础力场为RNA.OL3或RNA.ROC;
当所述生物大分子为DNA时,所述基础力场为DNA.BSC1或DNA.OL15。
6.一种基于人工智能的生物大分子量子力学特性计算系统,其特征在于,所述系统包括:
分块结构获取单元,用于获取生物大分子,并将所述生物大分子以基本组成单元为基础进行化学键切割,得到多种分块结构;所述生物大分子包括蛋白质、RNA、DNA中的任意一种;
构象量化数据集确定单元,用于对各所述分块结构进行构象采样,得到若干分块构象,并选择量子力学方法对所有分块构象进行量化计算,得到每个分块构象对应的量化计算结果,并确定不同分块结构的构象量化数据集;所述量化计算结果包括能量和原子力;
特征工程建立单元,用于基于不同分块结构的构象量化数据集,建立不同分块结构的特征工程;
不同分块结构的势能面预测模型构建单元,用于基于不同分块结构的特征工程,分别搭建相应的初始模型,并将所述构象量化数据集作为训练集,将所述量化计算结果作为标签,对所述初始模型进行训练,得到不同分块结构的势能面预测模型;
生物大分子体系的势能面预测模型确定单元,用于将不同分块结构的所述势能面预测模型与基础力场参数进行整合,得到生物大分子体系的势能面预测模型;
量子力学特性计算单元,用于通过所述生物大分子体系的势能面预测模型对待测生物大分子进行量子力学特性计算。
7.根据权利要求6所述的基于人工智能的生物大分子量子力学特性计算系统,其特征在于,在所述将所述生物大分子以基本组成单元为基础进行化学键切割时,在分块结构的两端添加共轭帽末端基团,以平衡和恢复分块结构的局部化学环境。
8.根据权利要求6所述的基于人工智能的生物大分子量子力学特性计算系统,其特征在于,所述构象量化数据集确定单元,具体包括:
动力学模拟子单元,用于采用Amber软件对各所述分块结构进行交换副本动力学模拟,同时在模拟过程中对各所述分块结构的骨架原子进行手性限制;
动态轨迹确定子单元,用于基于设定步长,完成对各分块结构设定时间的动力学模拟,得到各分块结构的动力学模拟动态轨迹;
构象抓取和信息获取子单元,用于按照设定间隔,从所述动力学模拟动态轨迹中抓取设定数量的构象,分别得到不同分块构象的三维坐标信息;
量化计算结果确定子单元,用于基于不同分块构象的三维坐标信息,采用量子力学方法对各所述分块构象进行量化计算,得到每个分块构象对应的量化计算结果;
构象量化数据集确定子单元,用于根据每个构象结构对应的量化计算结果以及不同分块构象的三维坐标信息,通过数据整合得到不同分块结构的构象量化数据集。
CN202210947309.6A 2022-08-09 2022-08-09 基于人工智能的生物大分子量子力学特性计算方法及系统 Withdrawn CN115295070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210947309.6A CN115295070A (zh) 2022-08-09 2022-08-09 基于人工智能的生物大分子量子力学特性计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210947309.6A CN115295070A (zh) 2022-08-09 2022-08-09 基于人工智能的生物大分子量子力学特性计算方法及系统

Publications (1)

Publication Number Publication Date
CN115295070A true CN115295070A (zh) 2022-11-04

Family

ID=83828538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210947309.6A Withdrawn CN115295070A (zh) 2022-08-09 2022-08-09 基于人工智能的生物大分子量子力学特性计算方法及系统

Country Status (1)

Country Link
CN (1) CN115295070A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072235A (zh) * 2023-03-30 2023-05-05 苏州创腾软件有限公司 基于分子模拟的交联网状结构模型优化方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072235A (zh) * 2023-03-30 2023-05-05 苏州创腾软件有限公司 基于分子模拟的交联网状结构模型优化方法和装置

Similar Documents

Publication Publication Date Title
CN110689965B (zh) 一种基于深度学习的药物靶点亲和力预测方法
Axelrod et al. Learning matter: Materials design with machine learning and atomistic simulations
CN101339181B (zh) 基于遗传算法的有机化合物燃爆特性预测方法
Zhuang et al. Machine‐Learning‐Assisted Nanozyme Design: Lessons from Materials and Engineered Enzymes
CN115295070A (zh) 基于人工智能的生物大分子量子力学特性计算方法及系统
CN111863121A (zh) 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN105117618A (zh) 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法
Daily et al. Divalent ion parameterization strongly affects conformation and interactions of an anionic biomimetic polymer
CN115985384A (zh) 一种基于强化学习和分子模拟的靶向多肽设计方法及系统
Corrigan et al. Implicit solvents for the polarizable atomic multipole AMOEBA force field
CN104732115B (zh) 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
Bi et al. Construction of multiscale genome-scale metabolic models: Frameworks and challenges
CN103164631A (zh) 一种智能协同表达基因分析仪
Wasim et al. Development of a data-driven integrative model of a bacterial chromosome
Cao et al. Machine Learning in Membrane Design: From Property Prediction to AI-Guided Optimization
Murray Whither genomics?
Shen et al. Prediction of quantitative phenotypes based on genetic networks: a case study in yeast sporulation
Chae et al. Shape fluctuations of random polyampholyte and intrinsically disordered protein sequences
Zaman et al. Building maps of protein structure spaces in template-free protein structure prediction
Domany Protein folding in contact map space
Singh et al. A Analysis of Artificial Neural Networks use in Predicting Secondary Structures
Qi et al. A Novel Integrated Feature Selection Method for the Rational Synthesis of Microporous Aluminophosphate
Wu et al. An expert system to identify co-regulated gene groups from time-lagged gene clusters using cell cycle expression data
Tanay et al. Multilevel modeling and inference of transcription regulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231031

Address after: No.536 Changle Road, Jing'an District, Shanghai 200040

Applicant after: Wei Zhiyun

Address before: 201400 floor 1, building 2, No. 1876, CHENQiao Road, Fengxian District, Shanghai

Applicant before: Shanghai Yinpeptide Information Technology Co.,Ltd.

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221104