CN116994660A - 复合物结构的生成方法、装置、设备及存储介质 - Google Patents

复合物结构的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116994660A
CN116994660A CN202210939891.1A CN202210939891A CN116994660A CN 116994660 A CN116994660 A CN 116994660A CN 202210939891 A CN202210939891 A CN 202210939891A CN 116994660 A CN116994660 A CN 116994660A
Authority
CN
China
Prior art keywords
force field
field model
substructure
component
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210939891.1A
Other languages
English (en)
Inventor
赖炫尧
叶兆丰
张胜誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210939891.1A priority Critical patent/CN116994660A/zh
Publication of CN116994660A publication Critical patent/CN116994660A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种复合物结构的生成方法、装置、设备及存储介质,涉及分子生成技术领域。该方法包括:获取复合物的初始力场模型,复合物包括至少两个组分,初始力场模型用于表征复合物的初始结构;根据初始力场模型,对至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到复合物的候选力场模型;其中,空间转换用于改变子结构中至少一个原子的空间位置;确定候选力场模型的评估结果,评估结果用于指示候选力场模型对应的复合物结构的有效性;在评估结果满足第一条件的情况下,将候选力场模型作为复合物的目标力场模型。通过对复合物初始构象中的子结构进行空间转换,有助于降低生成复合物结构过程的耗时。

Description

复合物结构的生成方法、装置、设备及存储介质
技术领域
本申请涉及分子生成技术领域,特别涉及一种复合物结构的生成方法、装置、设备及存储介质。
背景技术
通过模拟受体(如蛋白质)-配体复合物的结构(构象),可以对配体进行筛选。
相关技术中,通过分子动力学生成受体-配体复合物的多个结构。首先,需要使用分子动力学方法,分别模拟得到a个受体结构和b个配体结构;接着将b个配体结构中的任意一个目标配体结构分别与a个受体结构进行对接,也即进行集成对接(Emsenble Docking),得到最多ab个受体-配体复合物的结构;之后计算ab个受体-配体复合物的结构分别对应的评估结果,根据评估结果,确定至少一个目标受体-配体复合物的结构。
然而,使用分子动力学进行集成对接过程中,无论是生成多个受体构象,还是生成受体-配体复合物结构都会消耗大量的计算资源,且耗时较长。
发明内容
本申请提供了一种复合物结构的生成方法、装置、设备及存储介质。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种复合物结构的生成方法,所述方法包括:
获取复合物的初始力场模型,所述复合物包括至少两个组分,所述初始力场模型用于表征所述复合物的初始结构;
根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型;其中,所述空间转换用于改变所述子结构中至少一个原子的空间位置;
确定所述候选力场模型的评估结果,所述评估结果用于指示所述候选力场模型对应的复合物结构的有效性;
在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型。
根据本申请实施例的一个方面,提供了一种复合物结构的生成装置,所述装置包括:
模型获取模块,用于获取复合物的初始力场模型,所述复合物包括至少两个组分,所述初始力场模型用于表征所述复合物的初始结构;
空间转换模块,用于根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型;其中,所述空间转换用于改变所述子结构中至少一个原子的空间位置;
结构评估模块,用于确定所述候选力场模型的评估结果,所述评估结果用于指示所述候选力场模型对应的复合物结构的有效性;
结构筛选模块,用于在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述复合物结构的生成方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述复合物结构的生成方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述复合物结构的生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过复合物的初始力场模型对复合物中的至少一个子结构进行空间转换,得到候选力场模型,基于候选力场模型能够确定新生成的复合物结构。相比于采用分子动力学模拟大量生成复合物结构,本申请实施例在生成复合物结构的过程中所消耗的计算资源更少,有助于节省计算资源;同时有助于加快复合物结构的生成速度。
另外,在复合物结构的生成过程中,在对某个复合物结构进行评估之后,不需要再对该复合物结构进行调整。也即,用于对复合物初始结构进行调整的模块与进行复合物结构进行评估的模块不存在交叉。对于不同复合物的类型,可以在上述两个模块中设置不同的参数,提高复合物结构生成方法的普适性,使得复合物结构的生成方法的更具灵活性。
附图说明
图1示例性示出了几种复合物结构生成方法的示意图;
图2示例性示出了集成对接应用效果的示意图;
图3示例性示出了的配体分子虚拟筛选过程的示意图;
图4是本申请一个示例性实施例提供的方案实施环境的示意图;
图5是本申请一个示例性实施例提供的复合物结构的生成方法的流程图;
图6是本申请一个示例性实施例提供的目标子结构空间转换方法的示意图;
图7是本申请一个示例性实施例提供的进行不同方向扰动的效果的示意图;
图8是本申请的一个示例性实施例提供的PyTorch力场模型生成过程示意图;
图9是本申请一个示例性实施例提供的微组划分方法的示意图;
图10是本申请一个示例性实施例提供的宏组划分方法的示意图;
图11是本申请一个示例性实施例提供的复合物结构生成方法的示意图;
图12是本申请另一个示例性实施例提供的复合物结构生成方法的示意图;
图13是本申请一个示例性实施例提供的能量优化过程的示意图;
图14是本申请一个示例性实施例提供的复合物结构生成的准确性的示意图;
图15是本申请一个示例性实施例提供的配体活性分类的示意图;
图16是本申请一个示例性实施例提供的复合物结构的生成装置的框图;
图17是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习和式教学习等技术。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。
本申请中利用机器学习领域的参数优化器(如梯度优化器),参与复合物结构(/构象)生成过程,以便对待调整的复合物结构进行优化,生成调整后的复合物的结构。通过这种方法可以模拟得到比较贴近真实的复合物构象,也可以用于研究复合物构象与性能之间的对应关系,例如复合物的几何构象,与复合物性能之间的关系。
蛋白质(Protein)是指由氨基酸脱水缩合组成的序列经过空间盘曲折叠形成的高分子化合物。蛋白质的基本组成单位是氨基酸。按照空间结构,可以将蛋白质分子分成一级结构、二级结构、三级结构和四级结构;其中,一级结构是指通过氨基酸脱水缩合形成的序列,二级结构是指主要通过主链之间成键形成的结构,二级结构中包括α-螺旋(alpha-helix),β-折叠(beta-sheet)和蛋白质环(loop)三类,以α-螺旋为例,它是由多个连续的同类型残基做成的螺旋状片段。三级结构是指在二级结构的基础上通过侧链成键得到的结构。
蛋白质结构口袋(Protein Binding Pockets)是指蛋白质表面或者内部具有的适合于配体的结合的空腔。简称为蛋白质口袋或者口袋,该结构通常为疏水性空腔。
配体(Ligand)在生物学领域是指是指用于靶向特定蛋白质的小分子。配体用于与受体(得到)进行结合,从而发挥作用。
蛋白质-配体复合物是指由配体分子与蛋白质相互作用形成的结构,其中配体分子与蛋白质口袋互作的部分可以称之为蛋白质-配体口袋。在蛋白质-配体复合物中,蛋白质相当于受体(Receptor)一般来说,若某种蛋白质-配体复合物中,蛋白质分子与配体分子之间的结合越强,药物分子就越有可能与靶蛋白相互作用并抑制/激活蛋白质的生物活性。
构象(Conformation)是指不改变分子或者复合物中的共价键结构,仅改变原子在空间中的排布位置。不同的构象之间可以相互转换,通过构象的结合能可以判断构象的稳定性,结合能越小的构象越稳定。
分层张量变换(Tiered Tensor Transform,3T)是指基于一个给定的初始结构,进行张量转换,可以生成至少一个物理上的其他合理结构,从而产生多种不同的结构构象,也即本申请提供的生成复合物构象的方法。
PyTorch是一种基于Python的机器学习库,通常用于神经网络或其他与梯度相关的算法。PyTorch能够作为基于梯度的数据优化器,对待优化数据进行优化。
分子对接(molecular docking)是指配体分子与蛋白质进行结构匹配的过程。进行配体对接的目的是找到配体对接的最佳构象,也即实现配体几何优化。分子对接属于分子模拟的一种重要手段,主要包括空间匹配和能量匹配。
对接分数(Docking Score,DS)是指根据复合物的结构计算得到的经验分数。通过对接分数用于衡量蛋白质-配体复合物结合能。对接分数的数值由打分软件确定,在通常情况下,对接分数的数值通常为负数,对接分数的数值越小,表示配体-蛋白质复合物的结构越稳定,也即在实际结合过程中,配体有较大的机率能够与蛋白质较好地结合。
梯度提升(Gradient Boosting,GB)是指一种用于回归和分类任务的机器学习技术,通常由分阶段构建的决策树组成。
能量优化(Energy Minimization)是指通过优化目标对象的几何形状以优化系统能量的过程;其中,目标对象包括蛋白质、配体、蛋白质-配体复合物等复杂结构。能量评估可以使用各种方法完成,包括经典力场。
经典力场(Classical Force Field)用于经验性地描述给定分子系统的能量景观。经典力场包括一组势能函数和参数,这种经典力场通常由简单的参数化函数组成,例如二次函数、正弦函数等。这种经典力场通常用于在原子分子动力学模拟中衡量原子间的相互作用。
分子动力学(Molecular Dynamics,MD):分子系统中原子的模拟,可用于研究给定材料系统在特定工作温度/压力下随时间变化的动力学和动力学,对于小分子,通常需要消耗为几十皮秒至毫秒,对于蛋白质或聚合物结构,通过分子动力学模拟能够对多达数万到数十万个原子进行模拟。
图1是本申请提供的集中复合物结构生成方法的示意图。
下面以复合物为蛋白质-配体复合物为例,对相关方法之间的区别点进行介绍。
图1中的01框中表示刚体目标对接(Rigid Target Docking)。在这种方法中,首先需要获取蛋白质对应的多个构象,通过对蛋白质的多个构象进行最优构象筛选,得到一个最优蛋白质构象。分别将最优蛋白质指构象与不同的配体分子进行刚性受体对接(RigidReceptor Docking),得到多个蛋白质-配体复合物构象,蛋白质相当于受体。通过这种方法能够快速得到蛋白质-配体复合物的构象,造价便宜,但是结果不准确。
图1中的02框中表示基于分子动力学的集成对接(MD+Ensemble Docking)。在集成对接方法中,需要先对蛋白质进行分子动力学构象采样,并模拟生成蛋白质分子的多个构象,或者对蛋白质的结构进行解析(如X射线),得到蛋白质的多个构象(例如a个)。并将该多个构象分别与成百上千个配体小分子进行对接,并从对接得到的大量复合物中筛选出目标蛋白质-配体复合物的构象。通过集成对接方法能够比较准确地预测蛋白质-配体复合物的构象。
图2中根据Evangelista Falcon W等人和Ricci-Lopez J等人的研究已经表明,集成对接220相比于聚类的方法210可以极大地提高对接构象的精确度和打分。
然而,使用分子动力学来生成这些新的蛋白质构象在需要消耗大量的计算资源。像蛋白质这样的大型结构可能需要模拟长达1毫秒(约10亿个时间步长,典型MD时间步长是~0.5fs)。同时,还需要长时间占用数十个中央处理器(Central Processing Unit,CPU)或图像处理器(Graphic Processing Unit,GPU)来进行这些MD模拟(根据先前经验,使用LAMMPS约为20ns/天,使用Schrodinger Desmond约100ns/天)。
在集成对接方法中,除了需要经历漫长的蛋白质构象生成过程之外,在虚拟筛选过程中,我们经常还需要筛选成百上千的配体小分子,也即需要将每个独立的配体小分子分别于与上述多个每个蛋白质构象对接。在Evangelista Falcon W等人的研究中,总共进行了1.655亿次对接计算,在计算能力较强的计算机上需要大约3370万个核时。
通过上述内容可知,整体对接方法的主要缺点是:需要将每个配体分别对接到多个蛋白质构象上。这种方法要么需要一对一的通过实验大量解析蛋白质结构,要么需要执行漫长的分子动力学模拟(通常,分子动力学模以毫秒为时间尺度,或数十亿个MD时间步长)来生成蛋白质-配体复合物的构象。
进一步的,每个刚性蛋白质构象都需要于配体小分子进行对接,因此,需要对每个蛋白质-配体复合物进行额外的配体几何优化。这些过程在计算机设备(即使是计算能力较强的计算机设备)上可能需要消耗数千万个CPU核时。
图1中的03框中表示本申请提供的复合物结构生成方法,通过对初始的蛋白质-配体复合物构象进行张量转换,能够模拟生成多个物理上合理的蛋白质-配体复合物的构象,无需进行大量的分子动力学模拟,因此有助于减少生成复合物构象过程的耗时。
根据市场研究报告,计算机辅助药物发现市场中基于配体的药物筛选的市场规模,2020年约为11亿美元,预计2028年将增长到34亿美元。其中,亚太地区的市场规模预计将从2020年的7.1亿美元增加到2028年的23亿美元,约占市场增长的2/3。
蛋白质靶点(需要进行结合的蛋白质)的构象采样是研究基于配体的药物筛选中面临的主要问题之一。目前,已有许多分子动力学模拟方法用于增强蛋白质的构象采样。然而,这些分子动力学模拟方法需要消耗大量的时间和资源。另外,最优受体构象选择是刚性分子对接面临的核心问题。然而,考虑到受体的灵活性,可能不存在全局最优受体。因此,本方法提供了一种不需要对所有构象的受体分别与配体进行对接,就能够得到较好的受体-配体复合物构象的方法,基于复合物的一个初始结构(构象),生成至少一个物理争取的复合物的结构,有助于加快复合物构象的生成速度,从而实现对大量配体进行快速筛选,这对于药物发现具有重要的意义。
本申请提供的复合物构象的生成方法能够基于复合物的一个初始结构生成复合物的多个不同结构。
在一个示例中,复合物结构的生成方法的应用场景为:自动构建蛋白质-配体复合物结构以用于对配体进行活性分类。通过对初始结构进行空间转换,并对空间转换后的到的复合物结构进行评估(计算对接分数),而且不必在评估之后再进行进一步的结构优化,使得到的评估结果(如:分数、结合量等)可用于构建对活性配体分类的机器学习模型;其中,活性配体分类是指预测配体是否能够靶向目标受体。
进一步地,本申请提供的复合物构象的生成方法的应用场景包括:任何一个需要自动生成(物理)有效结构的过程。在本方法中,用于调整复合物结构的模块和(通过物理约束)对复合物结构进行评估模块的相互分离,使得该方法可以灵活应用于药物发现(例如确定配体的活性)及其他领域。
例如,复合物结构的生成方法可以应用在除药物发现外其他科学/工程应用。例如,通过本申请提供的方法可以用于优化光学纳米结构。通过对光学纳米结构进行优化调整,生成物理上有效的光学纳米结构。又例如,通过本申请提供的方法可以优化微流体装置的几何形状,并构建可以构建几何形状和特性之间的关系(例如用于预测几何形状对应的特性的机器学习模型)。
这说明,本申请中的复合物可以不止局限与有至少两组组分组成的物质,还可以是能够对结构进行划分的装置(例如微流体装置),以及在一段时间内相接触的两种组分(如电子表面钝化与活性剂的接触界面、晶格与小分子的融合位置等)。
图3示例性示出了配体分子虚拟筛选过程的示意图,本方法可以应用于虚拟筛选平台中的多种分子活性预测模型筛选活性分子310、分子动力学模拟自由能320等模块中,以便帮助从大量待筛选的配体分子中,挑选出候选分子。
图4是本申请一个示例性实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为一个计算机系统,如用于生成复合物构象的构象生成系统。该方案实施环境可以包括:计算机设备41和服务器45。
计算机设备41可以是诸如PC(Personal Computer,个人计算机)、平板电脑、手机、多媒体播放设备、可穿戴设备、智能家电、车载终端等电子设备。计算机设备41中可以安装运行有目标应用程序的客户端,该目标应用程序用于在复合物初始结构的基础上生成至少一个复合物的新结构。复合物的初始结构可以理解成为复合物的初始构象。
计算机设备41至少具有计算和存储功能,通过计算功能调整复合物初始构象中至少一个原子的分布位置,通过存储功能存储复合物的新结构。
服务器45能为计算机设备41上运行的目标应用程序提供后台服务,例如服务器45可以是目标应用程序的后台服务器。服务器45可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云计算、云函数、云存储、网络服务、云通信、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。服务器45至少具有数据收发、计算、存储等功能,用以实时与计算机设备41上客户端进行数据传输。
在一个示例中,服务器45可以为计算机设备41提供运算支持。例如,对于计算机设备41不能计算处理的目标对象,计算机设备41可以向服务器45请求计算目标对象的相关数据。
通过本申请提供的方法,在复合物(或者目标对象的)的一个初始结构和一组物理约束的基础上,能够生成复合物(或者目标对象的)的多个目标结构,目标结构生成过程中消耗的计算量较小;其中,目标对象包括其他需要对物理结构进行调整的物质或者装置。
图5是本申请一个示例性实施例提供的复合物结构的生成方法的流程图。示例性地,该方法的执行主体可以是图4中的计算机设备41,下面以计算机设备10作为执行主体对复合物结构的生成方法进行介绍,该方法可以包括如下几个步骤(510~540):
步骤510,获取复合物的初始力场模型,复合物包括至少两个组分,初始力场模型用于表征复合物的初始结构。
在一些实施例中,复合物由至少两个组分组成,组分是指自然界中存在的物质,如分子、原子等粒子。在一些实施例中,复合物中包括至少两个属于不同种类的组分。例如,复合物包括组分1和组分2;其中,组分1为受体,组分2为配体。对于蛋白质-配体复合物来讲,蛋白质属于该复合物的一个组分,配体属于该复合物的另一个组分。有关的至少两个组分的种类根据实际需要确定,本申请在此不进行限定。
在一些实施例中,复合物的结构可以理解成为复合物的构象,是指复合物中的原子在空间中的分布情况,复合物中的原子是至少两个组分中包括的原子。不同复合物构象中原子的空间分布不完全相同,也即,同一个复合物的两个不同构象中存在至少一个空间分布不同的原子。
在一些实施例中,力场模型中包括与复合物有关的信息。通过力场模型可以得到复合物的结构。在一些实施例中,力场模型中包括:结构数据和约束条件;其中,结构数据用于表征复合物的结构。例如,结构数据中包括复合物中的原子的空间位置信息(如,各个原子对应的空间坐标)。
在一些实施例中,约束条件用于对复合物的结构进行约束,以便提升复合物结构的合理性。在一些实施例中,约束条件包括物理约束。物理约束是指通过物理参数(例如受力等)对复合物的结构进行约束,以提升复合物结构的有效性。在一些实施例中,物理约束能够限制组分内部各个原子之间的物理关系,以及不同组分之间的物理关系。物理关系包括位置关系,连接关系等。位置关系是指至少两个原子之间的相对位置。例如,位置关系可以限制两个原子之间的最小距离,通常两个原子之间的最小距离大于或者等于两个原子的半径之和。连接关系用于表征某个组分内部,或者不同组分之间不同片段(片段中是指组分中若干个的连续的原子)的之间的连接关系。
在一些实施例中,物理约束中包括力场参数,力场参数用于指示复合物中原子的受力情况。在一些情况下,复合物的力场参数仅考虑复合物内容原子之间的相互作用,假设复合物中包括两种组分,力场参数用于表征复合物的原子在二元系统中的受力情况。若需考虑复合物与周围环境之间的相互作用,则可以使用多元系统中的约束方式来表征复合物中的原子的受力情况,物理约束的实际内容根据需要进行设定,本申请在此不进行限定。
不难理解的是,在复合物的不同结构中存在至少一个空间分布不同的原子,这类原子在复合物的不同结构中的受力情况不完全相同,因此,物理约束不是固定不变的,也即复合物的不同结构对应不同的力场参数。
在一些实施例中,物理约束包括拓扑关系,拓扑关系用于约束复合物的组分内部以及至少连个组分之间的连接关系。例如,在复合物中包括蛋白质组分时,拓扑关系中包括蛋白质不同部分之间的连接关系。通过物理约束能够避免在后续对初始结构进行调整后,得到物理上不合理的复合物结构。
在一些实施例中,力场模型中包括复合物中的原子的空间位置,力场参数和拓扑关系。此外,力场模型中还可以包括复合物中的原子的类型信息。
在一些实施例中,复合物的初始力场模型是指在需要进行调整的力场模型,也即通过对初始力场模型进行处理,可以生成复合物的新结构。
在一些实施例中,复合物的初始力场模型可以通过分子动力学模拟得到的,也可以是对实际的复合物结构进行解析(如X射线等方法)得到的,有关该过程的具体步骤,请参考下文实施例。
步骤520,根据初始力场模型,对至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到复合物的候选力场模型;其中,空间转换用于改变子结构中至少一个原子的空间位置。
在一些实施例中,目标组分是指复合物包括的至少一个组分。假设,复合物中包括组分1和组分2,则目标组分可以是组分1或者组分2,或者目标组分包括组分1和组分2。通过不同的目标组分设置方式,可以有针对性地对复合物中的一个或者多个组分进行空间转化。
子结构包括目标组分中的至少一个原子。子结构可以是目标组分中的单个原子,也可以是目标组分中的片段。也即,在子结构中包括多个原子的情况下,多个原子之间存在连接关系,例如,某个子结构中包括目标组分中的3个原子,原子1、原子2和原子3,原子与原子2之间存在共价键连接,原子2和原子3之间存在共价键连接。
在一些实施例中,目标组分中包括多个子结构,不同子结构之间不存在部分重叠。也就是说,两个的子结构之间可以相互独立,不存在任意一个重叠原子。
需要说明的是,目标组分可以包括多个同类原子,例如,有机物中通常会包括多个碳原子,晶格中会包括多个同类金属原子等。在一些实施例中,同种类是指原子的质子数相等。
以有机物为例,对重叠原子的含义进行解释:有机物中通常会包括相同类型的原子。例如,有机物中包括多个碳原子,不同的碳原子在有机物中所处的位置(属于的碳链,在碳链中的编号)、周围的基团存在区别。可以通过对碳原子进行标号,来区分有机物中的不同碳原子。不同子结构中不存在重叠原子是指子结构中不存在标号相同的碳原子(其他类型的原子同理)。
另外,两个子结构之间也可以是包含关系,例如子结构a中包括子结构b。
在一些实施例中,目标组分的子结构是进行空间转换之前预先划分的,有关目标组分中子结构的划分方法请参考下文实施例。
在一些实施例中,计算机设备对目标组分中的全部子结构分别进行空间转换。在另一些实施例中,计算机设备从目标组分中挑选一些子结构参与空间转换过程。在这种情况下,若某个子结构c需要进行空间转换,则包括该子结构c的任意一个子结构可能也需要进行空间转换。有关目标组分中子结构的挑选过程,请参考下文实施例。
在一些实施例中,计算机设备根据初始力场参数,对目标组分中的至少一个子结构,分别进行至少一次空间转换得到候选力场模型。有关该过程的具体内容,请参考下文实施例。
步骤530,确定候选力场模型的评估结果,评估结果用于指示候选力场模型对应的复合物结构的有效性。
在一些实施例中,计算机设备通过评估软件对候选力场模型对应的复合物结构(或复合物构象)进行打分,得到复合的结构。在一些实施例中,评估结果与候选力场模型对应的复合物结构的结合能有关。
通常,结合能越大表示对应的构象更加不稳定;结合能越小表示对应的构象更加稳,也即,真实环境中上述至少两个组分越有可能生成稳定的复合物,对于蛋白质-配体复合物来讲,说明该配体越有可能与蛋白质结构,也即配体越有可能具有活性。
步骤540,在评估结果满足第一条件的情况下,将候选力场模型作为复合物的目标力场模型。
在一些实施例中,第一条件用于筛选候选力场模型,以便得到物理正确的复合物结构/构象。目标力场模型用于表征通过预测后,实际可能存在的复合物的结构。
在一些实施例中,由于对初始力场模型进行转换,得到中间力场模型,中间力场模型可以作为目标力场模型。因此,初始力场模型以及中间力场模型中包括的内容相似,例如:初始力场模型和中间力场模型中都包括:结构数据和物理约束,只是不同力场模型中的结构数据(物理约束)的具体数据不完全相同。
在得到候选力场模型对应的评估分数之后,计算机设备根据候选力场模型对应的评估分数,判断是否可以将候选力场是否可以作为复合物的目标力场模型。在评估结果满足第一条件的情况下,计算机设备将该候选力场模型作为复合物的目标力场模型;计算机设备在评估结果不满足第一条件的情况下,候选力场模型不能作为复合物的目标力场模型。可选地,计算机设备丢弃该候选力场模型。
在一些实施例中,第一条件是预定义的,有关该过程的具体内容,请参考下文实施例。
综上所述,通过复合物的初始力场模型对复合物中的至少一个子结构进行空间转换,得到候选力场模型,基于候选力场模型能够确定新生成的复合物结构。相比于采用分子动力学模拟大量生成复合物结构,本申请实施例在生成复合物结构的过程中所消耗的计算资源更少,有助于节省计算资源;同时有助于加快复合物结构的生成速度。
另外,在复合物结构的生成过程中,在对某个复合物结构进行评估之后,不需要再对该复合物结构进行调整。也即,用于对复合物初始结构进行调整的模块与进行复合物结构进行评估的模块不存在交叉。对于不同复合物的类型,可以在上述两个模块中设置不同的参数,提高复合物结构生成方法的普适性,使得复合物结构的生成方法的更具灵活性。
下面通过几个实施例,对目标组分的空间转换过程进行介绍说明。
在一些实施例中,计算机设备根据初始力场模型,对至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到复合物的候选力场模型,包括:计算机设备根据初始力场模型,对目标组分包含的至少一个子结构分别进行扰动处理,得到复合物的扰动力场模型;其中,扰动力场模型用于表征进行扰动处理后的复合物的结构;计算机设备对扰动力场模型进行调整,得到复合物的候选力场模型。
对子结构分别进行扰动处理是指改变子结构在复合物中的分布位置,从而导致复合物的结构发生改变。在一些实施例中,扰动力场模型对应的复合物的结构是物理上无效的结构。
在一些实施例中,目标组分中不同子结构受到的扰动相同。例如,目标组分中不同子结构受到同一个方向的扰动。在另一些实施例中,目标组分中不同子结构受到的扰动不完全相同。在一些实施例中,对初始力场模型转变成为扰动力场模型的过程可以称为能量扰动(Energetic Kick)。
通过对目标组分中的至少一个子结构进行扰动处理,能够对复合物的初始结构造成破坏,有助于减少复合物的初始结构某些错位的原子分布对生成复合物的新结构产生的局限,有助于提高生成的复合物结构的有效性,使得生成的复合物结构能够更加准确地预测至少两个组分实际对接,得到的真实复合物的结构。
计算机设备通过对扰动力场模型进行调整,实现对扰动后的复合物结构进行优化,得到候选力场模型。在一些实施例中,对扰动力场模型进行调整的过程是逐步进行的,通过逐步进行能量优化,最终能够得到物理上争取的复合物结构。有关该过程的具体内容,请参考下文实施例。
计算机设备通过改变子结构中至少一个原子的空间位置(如原子的坐标)对子结构进行空间转换。相对于分子动力学模拟,在对子结构进行空间转化的过程中需要消耗的计算资源较少,有助于提高生成复合物结构的速度。
在一些实施例中,计算机设备根据初始力场模型,对目标组分包含的至少一个子结构分别进行扰动处理,得到复合物的扰动力场模型,包括:计算机设备根据初始力场模型,确定至少一个子结构分别对应的初始变换张量;其中,初始变换张量用于表示子结构中至少一个原子的空间位置;计算机设备对子结构对应的初始变换张量进行随机扰动,得到子结构对应的扰动变换张量;其中,扰动变换张量用于转换子结构中至少一个原子的空间位置;计算机设备根据扰动变换张量对相应的子结构进行空间转换,得到复合物的扰动力场模型。
在一些实施例中,变换张量能够表征与子结构有关的信息,例如,变换张量能够表征子结构中至少一个的原子的空间位置信息(如坐标)和动量信息等。通过调整变换张量,能够改变子结构中至少一个原子的空间位置。
在一些实施例中,变换张量中包括与进行空间转换有关的参数。通过对变换张量中与空间转换有关的参数进行扰动,能够改变子结构在复合物结构中的分布位置。
在一些实施例中,目标组分中的各个子结构分别对应有一个变换张量。各个子结构对应的变换张量的维度相同。例如,子结构1对应有变换张量1,子结构2对应有变换张量2;其中,变换张量1的维度和变换张量2的维度相同。
初始变换张量是指对在对复合物的结构进行调整之前,子结构对应的变换张量。在一些实施例中,子结构对应的初始变换张量可以通过初始力场模型获取,计算机设备根据初始力场模型中与子结构有关的信息,生成子结构对应的初始变换张量。
在一些实施例中,对子结构对应的初始变换张量进行扰动是指:改变初始变换张量中与空间转换有关的参数的数值。在一些实施例中,计算机设备生成初始变换张量对应的随机数据,通过随机数据对初始变换张量进行处理,得到扰动变换张量。例如,对于某个子结构,计算机设备通过随机种子生成随机数,并将随机数作用于该子结构对应的初始变换张量,得到该子结构对应的扰动变换张量。可选地,将随机数作用于初始变换张量,是指将随机数与初始变换张量中对应位置的数据进行数值运算(例如数值相加、数值相乘等)。
可选地,不用子结构的初始变换张量对应的随机数不相同。
在一些实施例中,在根据初始变换张量生成扰动变换张量的过程,子结构对应的变换张量发生了改变,这种张量操作能够引起子结构中原子的空间位置发生改变,也即子结构中的至少一个原子分别对应的坐标发生改变。
通过张量操作将初始变换张量转换为扰动变换张量,使得对应的子结构的空间位置发生变化。在一些实施例中,计算机设备将组成复合物的至少两个组分全部作为目标组分,并对各个目标组中的子结构进行扰动,最后得到复合物对应的扰动力场模型。在该过程中,计算机设备根据初始力场模型确定各个目标组分中,至少一个子结构分别对应的初始变换张量,并通过随机数对初始变换张量进行处理得到扰动变换张量。
通过上述方法,通过扰动子结构的初始变换张量实现了对子结构中的原子的空间位置进行改变。由于子结构中包括至少一个原子,在子结构中包括多个原子的情况下,以多个原子为单位,进行扰动,有助于提高扰动后的到的复合物结构的多样性。
在一些实施例中,初始变换张量中包括以下至少之一:平移矩阵和旋转矩阵,其中,平移矩阵用于表征子结构中至少一个原子的平移自由度,旋转矩阵用于表征子结构中至少一个原子的旋转自由度。
在一些实施例中,子结构中在空间中具有平移自由度和旋转自由度,平移自由度是指子结构能够在空间中通过平移的方式移动,在子结构进行平移的过程中,子结构中的各个原子分别对应的空间位置变化相同(例如,子结构中的各个原子的横坐标变换一个单元)。旋转自由度是指子结构能够在空间中通过旋转的方式移动,在子结构进行旋转的过程中,子结构中的各个原子的空间位置变化不完全相同(例如,旋转后原子空间位置的变换和该原子与旋转参考点的位置有关)。可选地,旋转方式包括中心旋转和轴旋转。
在一些实施例中,变换张量可以通过平移或旋转的方式改变对应子结构的空间位置,也即,变换张量中与空间转换有关的参数包括:平移参数和旋转参数。可选地,平移参数能够控制子结构在空间中实现沿着x轴、y轴和y轴三个方向中的至少之一移动。在一些实施例中,初始变换张量中的平移参数和旋转参数表示为0,也即初始变换张量能够表征复合物初始结构中原子的空间分布。
在一些实施例中,平移参数以矩阵形式表示,即为平移矩阵。可选地,平移矩阵包括:水平方向子矩阵、竖直方向子矩阵和前后方向子矩阵。旋转参数以矩阵形式表示,即为旋转矩阵。也即变化张量中包括平移矩阵和旋转矩阵。
图6是本申请一个示例性实施例提供的目标子结构空间转换方法的示意图。
图6中通过对子结构(一个完整的分子)进行坐标变换来优化分子(可以理解成配体)在材料(可以理解成受体)表面附近的结合构象。601子图中表示了分子初始坐标611(xyz)。620子图中表示了在分子初始坐标611(xyz)上进行旋转后的结合构象;其中,621是指旋转后的分子坐标(即分子中各个原子的坐标)。630子图中表示在分子初始坐标611(xyz)上进行平移后的,得到的结合构象;其中,631是指旋转后的分子坐标。640子图表示在分子初始坐标611(xyz)上进行旋转以及平移后,得到的结构构象;其中,641是指旋转、以及平移后的分子坐标。
通过上述方法,通过设置子结构的自由度,有助于提高复合物结构的生成速度。如果在生成复合物结构的过程中,简单地基于力场直接移动单个原子,那么在生成复合物结构的过程中,需要消耗大量时间。同时,仅移动单个原子容易陷入局部能量最小值。在子结构中包括一个以上原子的情况下,对子结构进行移动能够提高复合物结构变换的自由度,避免陷入局部最小值,有助于生成更加多样的复合物的新结构。通过增加包含移动子结构的额外自由度能够显著加速复合物结构的生成速度。在将上述方法应用到对于药物(相当于配体)筛选时,加快复合物优化结构的生成速度有助于加速对不同的药物小分子进行筛选的过程。
在一些实施例中,子结构包括微组;其中,微组中包括目标组分中的至少一个原子;计算机设备对子结构对应的初始变换张量进行随机扰动,得到子结构对应的扰动变换张量,包括:在子结构属于轴旋转微组的情况下,计算机设备对初始变换张量中的平移矩阵进行第一随机扰动;其中,第一随机扰动通过生成随机数确定;计算机设备对初始变换张量中的旋转矩阵分别进行第一随机扰动和第二随机扰动,其中,第二随机扰动通过概率参数和固定扰动角度确定;其中,轴旋转微组中存在一个原子与除了轴旋转微组中的原子以外的其他原子形成可旋转键,使得轴旋转微组中的至少一个原子能够以可旋转键为轴进行旋转。
在一些实施例中,计算机设备通过随机种子随机数,根据随机数得到第一随机扰动。
在一些实施例中,微组根据可旋转键划分确定,有关该过程的具体内容请参考下文实施例。
子结构的空间转换不仅限于旋转或平移,根据需要,还可以使用额外的张量变换模式来模拟复合物中不同类型的运动。例如,通过增加额外的张量变换模式可以模拟分子中特殊的旋转模式——轴旋转模型。
下面,以蛋白质-配体复合物对轴旋转模型的实现方法进行说明。
在一些实施例中,蛋白质和配体的原子片段可以相对于作为锚轴的可旋转键旋转。对于蛋白质,这些基团(相当于原子片段)是氨基酸侧链,通过其作为旋转轴的锚定可旋转键连接到主链。对于配体,特殊旋转模式可用于仅与一个可旋转键相连的微组。实际应用中,某些侧链较大的氨基酸,会被卡在某个位置难以脱离局部能量陷阱。为了缓解这种情况,我们可以将这些大氨基酸侧链的初始值设置为180度,前提是它们不会与蛋白质的其他部分产生任何冲突。此初始设置仅允许用于组氨酸(HIS)、苯丙氨酸(PHE)、色氨酸(TRP)和酪氨酸(TYR),他们都有较大的刚性侧链。在一些实施例中,对轴旋转位置对应的初始变换张量的进行扰动(张量转换)的规则是:
计算机设备确定微组属于氨基酸侧链(R)还是仅与一个可旋转键相连的配体微组。在微组属于配体中的轴旋转微组的情况下,则使用相对于锚轴的特殊旋转模式。例如,采用对该微组对应的变换中的旋转参数(例如上文中的旋转矩阵)进行轴旋转方式的扰动。
在微组属于配体中的氨基酸侧链(R)的情况下,判断微组是否属于体积较大的氨基酸侧链(例如HIS、PHE、TRP或TRY的氨基酸侧链)。
在微组属于体积较大的氨基酸侧链的情况下,判断将该微组旋转180度是否会与复合物中的任何原子产生冲突。
在该微组旋转180度会与复合物中的某一个原子产生冲突的情况下,则对该微组对应的初始变化张量中的初始旋转参数进行一个随机扰动,以及在k%的概率下对初始旋转参数增加额外的180度旋转。其中,k为[1,100]间的正数。例如k=50%。
在微组属于其他氨基酸集团的情况下,对微组对应初始变换张量进行一次随机扰动(随机数值处理),随机扰动的具体方法可以参考上文实施例,在此不进行赘述。
在一些实施例中,复合物结构生成方法还包括:计算机设备对初始力场模型分别进行n个空间转换过程,得到n个空间转换过程分别对应的候选力场模型;其中,n为大于1的整数,在任意两个空间转换过程中存在至少一个子结构进行了不同方向的空间转换;对于每一个候选力场模型,计算机设备执行确定候选力场模型的评估结果,在评估结果满足第一条件的情况下,将候选力场模型作为复合物的目标力场模型的步骤。
在一些实施例中,空间转换过程是指根据初始力场模型,得到候选力场模型的过程。
在一些实施例中,针对同一个复合物的初始力场模型进行调整,可以得到多个候选力场模型。具体地,计算机设备针对初始力场模型进行多个空间转换过程,分别得到多个空间转换过程对应的候选力场模型。随后,计算机设备在多个候选力场模型中根据第一条件挑选出评估结果较好的前j个候选力场模型分别作为目标力场模型,其中j为小于等于候选力场模型总数量的正整数,例如j=1、j=3等。
在一些实施例中,计算机设备可以根据初始力场模型进行多个空间优化过程。在这个过程中,如果简单地优化给定的复合物的初始结构,无论采取何种方式对扰乱力场参数进行调整(优化子结构的扰动变换张量),最后都可能会收敛到非常相似候选力场模型,也即得到多个比较相似的复合物结构。
在不同的空间转换过程中,对子结构进行不同方向的空间转换,有助于生成多个不同的复合物结构,有助于从多个候选力场模型中得到的目标力场模型对应的复合物的新结构的有效性,提高预测生成的复合物结构的准确性。
在一些实施例中,子结构进行不同方向的空间转换是指将子结构变换到不同的空间位置。也即,子结构中的原子的空间坐标发生变换不同。例如将子结构向不同的方向移动,或者,采用不同的旋转角度对子结构进行旋转。
在一些实施例中,对子结构进行不同方向的空间转换是通过对子结构对应的初始转换张量进行随机扰动实现的。也即,某个子结构在不同的空间转换过程中,其初始转化张量对应于不同的随机扰动,使用不同的随机数对初始变换张量进行处理,得到不同的变换张量。
图7是本申请一个示例性实施例提供的进行不同方向扰动的效果的示意图。
图7中的复合物是蛋白质-配体复合物,包括蛋白质710和配体720两个组分,在生成新的蛋白质-配体复合物的结构的过程中,通过对子结构对应的初始变换张量进行随机扰动(图7中的3T能量扰动),使得蛋白质-配体复合物对应的原子力场势能图景(AtomisticForce Field Potential Energy Landscape)730发生改变,原子力场势能图景730中的白色箭头指示方向为随机扰动后,蛋白质-配体复合物的势能变换方向。从原子力场势能图景730中可以看出两个白色的箭头分别向左、右两个方向发生偏移,表示不同空间转换过程中,对子结构进行了不同方向的随机扰动(使用不同的随机能量扰动对初始变换张量进行处理)。不同的随机扰动后的优化过程(图7中的3T优化),在原子力场势能图景730中对应不同的优化方向(730中的黑色箭头),也即对某个初始力场模型进行不同方向的随机能量扰动后,再进行优化可以得到不同的蛋白质-配图复合物结构。
在新生成的蛋白质-配体复合物的构象与初始蛋白质-配体复合物的构象存在区别,例如在蛋白质的部分区域740的构象上与初始构象相比发生了较大的变化。
通过进行多次空间转换过程,并且通过使子结构向不同的方向运动,能够得到多个不同的复合物结构,有助于生成接近真实存在的复合物结构,提高复合物结构生成过程的准确性。对于活性配体的筛选应用场景,有助于提高活性配体筛选过程中的准确性。
在一些实施例中,计算机设备对扰动力场模型进行调整,得到复合物的候选力场模型,包括:计算机设备计算扰动力场模型对应的损失函数值,损失函数值用于表征扰动处理后复合物的结构的稳定性能;计算机设备根据损失函数值,对至少一个子结构分别对应的扰动变换张量进行调整,得到至少一个子结构分别对应的中间变化张量;其中,所述中间变换张量用于改变子结构中至少一个原子的空间位置;计算机设备根据至少一个中间变换张量对相应的子结构进行空间转换,得到中间力场模型;在中间力场模型满足第二条件的情况下,计算机设备将中间力场模型作为优化力场模型。
在一些实施例中,计算机设备对扰动力场模型进行调整是通过改变至少一个子结构对应的扰动变换张量实现的。通过逐步对子结构的扰动变换张量进行调整,优化扰动力场模型使之重新达到局部最小值,使得复合物的结构逐步趋向于物理正确。
在一些实施例中,损失函数值与复合物的结构的能量有关。在一些实施例中,计算机设备通过损失函数,确定扰动力场模型对应的损失函数值,在一些实施例中,损失函数用于评估复合物结构的稳定性。在一些实施例中,损失函数是用于计算复合物构象的能量相关的方法。例如损失函数用于计算复合物结构(构象)的能量项(Forces),或者能量项之和。在一些实施例中,能量项可以通过力场模型中的力场参数确定,力场参数中的不同组成对应有不同的能量项,如键角对应的能量项,分子间作用力对应的能量项等。又例如损失函数可以是计算复合物的结构的结合能的方法。有关损失函数的具体类型可以根据复合物的类型等实际需要进行设定,本申请在此不行限定。
在计算得到扰动力场模型对应的损失函数值之后,计算机设备根据损失函数值,对至少一个子结构对应的扰动变换张量进行调整。在一些实施例中,计算机设备具有扰动力场模型进行能量优化,逐步对复合物的结构进行调整。在一些实施例中,将扰动力场模型转换成中间力场模型需要进行多次能量优化。能量优化是指对子结构对应的变换张量(扰动变换张量,或者随机变换张量)进行梯度优化。可选的,该过程通过PyTorch等机器学习中使用的参数优化器完成。
在一些实施例中,计算机设备通过损失函数值确定至少一个子结构的扰动变换张量的调整方法。可选地,计算机设备通过张量操作对扰动变换张量进行处理,得到中间变换张量。例如,计算机设备对扰动变换张量中的空间变换参数进行小的扰动(通过损失函数值确定),得到中间变换张量,该过程的具体内容请参考上文实施例。
在一些实施例中,在将子结构对应的扰动变换张量调整成中间变化张量之后,子结构中至少一个原子的空间位置会发生变化。
在一些实施例中,计算机设备计算中间力场模型对应的损失函数值,并根据中间力场模型对应的损失函数值对至少一个子结构的中间变换张量进行调整,得到调整后的中间变换张量,该过程与根据扰动变换张量确定中间变换中的过程相同,在此不进行赘述。在一些实施例中,计算机设备重复执行该过程,直到中间力场模型满足第二条件。
在一些实施例中,第二条件是指中间力场模型对应的损失函数值达到收敛。在一些实施例中,第二条件与中间力场模型的优化次数有关,例如,第二条件是指中间力场模型的优化次数达到次数阈值,如1000个时间步长。需要说明的是,第二条件的具体内容,根据实际需要进行设定本申请在此不进行限定。
在得到扰动力场模型之后,基于扰动力场模型开始进行优化调整过程,可选地,该优化调整过程可以称为能量优化过程,也即通过逐步调节至少一个子结构的扰动变换张量或者中间变换张量,使得生成的复合物中间结构对应的能量项逐步降低,有助于最终生成物理上正确的复合物的结构。在上述过程中,能够通过现有的参数优化器对子结构的中间变换张量进行梯度调整,使得复合物的中间结构对应的能量图景不断降低。由于,子结构对应的变换张量可以直接使用现有的机器学习中的参数优化器进行调整,因此对力场模型进行能量优化的过程较为简单。
在一些实施例中,为了减少复合物结构调整过程中的计算量,可以减少参与空间转换过程的子结构的数量。
在一些实施例中,复合物结构生成方法还包括:计算机设备确定复合物对应的优化区域;其中,优化区域用于标识复合物结构中参与构象优化的子结构的范围;对于任意一个候选子结构,在候选子结构中具有至少一个原子的空间位置位于优化区域以内的情况下,计算机设备将候选子结构作为待优化的子结构;其中,待优化的子结构用于参与空间转换过程。
在一些实施例中,优化区域是指与复合物的结构存在重叠的虚拟区域,在一些实施例中,优化区域与至少两个组分的对接区域存在重叠,也即至少两个组分的对接区域包括在优化区域内。
在一些实施例中,复合物中的至少两个组分之间的体积存在差别。例如,至少两个组分中包括:体积较大的组分1和体积较小的组分2,优化区域可以是以复合物中组分2为中心,包括组分1和组分2对接部分的区域。在这种情况下,优化区域中可以包括完整的组分2。
在一些实施例中,优化区域中包括至少一个目标组分中的子结构,通过调节优化区域的范围,能够改变优化区域中包括的子结构的数量。例如,增大优化区域的范围,引起需要进行空间变换的子结构的数量增加;减小优化区域的范围,引起需要进行空间变换的子结构的数量减少。
在一些实施例中,优化区域中可以包括复合物中的所有子结构,例如优化区域中包括复合物的完整结构。优化区域也可以集中在至少两个组分之间的结合部位,在减少计算量的同时能够更好地研究至少两个组分之间结合点位的结构变化情况。
在一些实施例中,优化区域可以是球型(具有球心和半径)、椭球形或立方体等较规则形状,也可以是一个不规则的封闭区域。例如,优化区域是一个球型,通过固定球心,改变半径可以改变优化区域中包括的原子数量。优化区域的范围可以根据实际需要进行确定,本申请在此不进行限定。
在一些实施例中,计算机设备根据复合物的初始力场参数,获取复合物中各个原子的空间坐标。在某个原子的空间坐标被包括在优化区域的情况下(也即该原子处于优化区域内部或者优化区域边缘),计算机设备将包括该原子的至少一个子结构确定为待优化子结构,后续根据上文方法对这些待优化子结构进行空间转换,调整这些待优化子结构的空间位置。
对于蛋白质-配体复合物来讲,优化区域用于模拟蛋白质口袋。优化区域的范围可以通过相关研究中得到的蛋白质口袋的范围确定。
通过上述方法能够减少需要进行空间转换的子结构的数量,减少生成复合物结构过程对计算资源的消耗,有助于进一步减少生成复合物结构的耗时。另外,优化区域的范围可以调节,根据实际需要对优化区域的范围进行设定,使得不同情况的复合物对应有不同的优化区域,使得复合物结构的生成方法更具灵活性。
在一些实施例中,计算机设备获取复合物的初始力场模型,包括:计算机设备获取至少两个组分分别对应的结构数据,结构数据用于表示组分的三维空间结构;计算机设备根据至少两个组分分别对应的结构数据进行对接,得到复合物对应的结构数据;其中,复合物对应的结构数据用于表示复合物的三维空间结构;计算机设备获取计算复合物中至少两个组分分别对应的力场参数;其中,力场参数用于表征组分中至少一个原子在复合物中的受力情况;计算机设备对复合物的结构数据和至少两个组分分别对应的力场参数进行处理,得到复合物对应的初始力场模型。
在一些实施例中,计算机设备从数据库中获取至少两个组分分别对应的结构数据。在一些实施例中,将至少两个组分分别对应的结构数据进行对接之前,需要对至少两个组分分别对应的结构数据进行处理,使得至少两个组分能够通过软件正确进行对接。
在一些实施例中,结构数据称为三维结构数据,用于表征目标组分中原子的之间的相对位置。在一些实施例中,在一些实施例中,力场参数用于表征复合物或者化合物等结构中的至少一个原子的受力情况。以蛋白质为例,蛋白质的力场参数中包括蛋白质中的至少一个原子的共价键参数和作用力参数;其中,共价键参数用于表征原子的成键情况下。在一些实施例中,共价键参数中包括:原子的键长、键角和二面角中的至少之一。作用力参数用于表征原子与其他原子之间的作用力关系。在一些实施例中,作用力参数中包括:分子间作用力、范德华力和静电力中的至少之一。
下面以蛋白质-配体复合物为例,对初始力场模型的生成过程进行介绍说明。
在一些实施例中,在获取到两个组分分别对应的结构数据之后,需要对结构数据进行处理,以保证对接过程的顺利进行。需要说明的是,该步骤与相关软件的计算特点,以及结构数据的内容有关,具体可根据实际情况确定该步骤是否进行。首先,计算机设备获取配体的结构数据,并去除配体中的非极性氢。例如,通过使用openbabel软件去除配体中的所有非极性氢。对于一些计算软件,配体中的非极性氢对计算结果的准确性会产生影响。因此,在进行蛋白质与配体的对接之前,去除配体中的非极性氢是必要的。
在蛋白质的结构数据中包括与其他物质有关的信息的情况下,计算机设备需要对蛋白质的结构数据进行处理,清理蛋白质的结构数据中包括的以去除所有溶剂和离子。可选地,蛋白质的结构数据可以从中获取蛋白质数据库(Protein Data Bank)中获取PDB格式数据。
在一些实施例中,为了方便查找研究对接生成的蛋白质口袋的位置,还可以将蛋白质的结构数据进行对齐。在一些实施例中,计算机设备将蛋白质的结构数据与基准蛋白质的结构数据进行对齐(对齐是指统一多个结构数据中的坐标系)。例如,蛋白质为CDK2(周期蛋白依赖性激酶),计算机设备将所有CDK2的PDB与1FIN进行对齐。可选地,计算机设备还可以还提取了从蛋白质的结构数据中提取主链和二级结构信息,用于优化复合物结构。
接下来,计算机设备生成通过对接软件(如smina)对接生成对接构象,并保留得分最高的5个构象。
随后,计算机设备通过pymol(制作蛋白质的三维结构图像)给配体添加氢原子,以避免缺少配体中的氢原子,导致优化后得到的蛋白质-复合物结构具有几何问题。可选地,计算机设备还可以对配体中的所有原子进行编号,并提取配体中的可旋转键信息,配体中原子的编号以及可旋转键信息可以使用mol2格式保存。计算机设备将与配体结构有关的信息(如配体的结构数据、配体中原子的编号和可旋转键信息)发送给服务器(如SwissParam),通过服务器计算获得配体对应的力场参数。由于配体中包括的原子种类多种多样,因此计算配体的力场参数比较复杂,配体的力场参数可以通过服务器辅助计算得到。
在对接得到蛋白质-配体复合物的结构数据之后,计算机设备需要根据蛋白质-配体的结构数据生成蛋白质-配体复合物的初始力场模型。该初始力场模型可以是PyTorch-模型;其中,PyTorch-模型是基于标准有机聚合物/分子力场实现的。
在初始力场模型生成过程中,计算机设备需要将蛋白质-配体复合结构拆分为蛋白质和配体两部分。并分别获取蛋白质的力场参数和配体的力场参数,并通过蛋白质-配体复合物的结构数蛋白质得力场参数配的力场参数,得到蛋白质-配体的初始力场模型。
图8是本申请的一个示例性实施例提供PyTorch力场模型生成过程示意图。
在图8中,可以使用:用于化学模拟的Groningen机器(Groningen Machine forChemical Simulations,GROMACS)MD软件,基于CHARMM力场计算蛋白质力场参数。而对于配体,使用SwissParam服务器进行配体的力场参数计算。然后将这些结构(及其力场参数)重新组合成一个GROMACS(形式的)数据结构。由于GROMACS数据结构难以直接转换成力场模型,可以使用开源Python包“InterMol”对GROMACS数据结构进行转换,得到其他格式的数据结构(如LAMMPS的MD数据结构)。基于LAMMPS数据结构,我们就可以为蛋白质-配体复合物创建一个力场PyTorch模型。
需要说明的是,初始力场模型的生成过程可以使用任何一种软件,上述实施例中出现的软件模型,数据格式仅仅是本申请提供的一种可以生成初始力场模型的距离,并不代表对初始力场模型生成过程中使用的软件或者文件格式进行限定。
通过上述方法,借助相关方法合成复合物的一个初始结构,并复合物的初始力场模型,而不需要为复合物单独训练对应的力场模型,有助于简化初始力场模型的确定方法。另外,上述方法中可以根据实际需要,获取复合物的至少两个组分分别对应的力场参数和结构,生成实际需要的复合物初始力场模型。
在一些实施例中,在得到复合物对应的初始力场模型之后,还包括:计算机设备根据初始力场模型,对至少两个组分之一的预处理组分进行平衡处理,得到平衡力场模型;其中,平衡处理用于提高复合物中预处理组分中的至少一个原子的空间位置的合理性;其中,平衡力场模型用于表征进行平衡处理之后得到的复合物的构象;计算机设备将平衡力场模型,作为复合物对应的初始力场模型。
在一些实施例中,在对复合物的初始结构进行调整之前,需要先在平衡状态下对预处理组分进行调整。在一些实施例中,预处理组分是至少两个组分中的一个或者多个。预处理组分可以与上文中的目标组分相同,也可以与上文中的目标组分不相同。例如,复合物中包括组分1和组分2;其中,目标组分为组分1和组分2,预处理组分为组分2。又例如,复合物中包括组分1、组分2和组分3;其中,目标组分包括:组分1、组分2和组分3,预处理组分包括组分1、组分2和组分3。
在一些实施例中,平衡处理是指对复合物结构进行优化前,对复合物中的预处理组分进行调整,有助于提高预处理组分在复合物中的构象的合理性。在一些实施例中,对预处理组分进行平衡处理也是通过对预处理组分中的至少一个子结构进行空间变换实现的。
在一些实施例中,计算机设备根据初始力场模型,对预处理组分进行平衡处理得到平衡力场模型,包括:计算机设备根据初始力场模型,确定预处理组分中至少一个子结构对应的初始变换张量;计算机设备对预处理组分中至少一个子结构对应的初始变换张量进行平衡扰动,分别得到对应的平衡扰动变换张量;计算机设备根据至少一个平衡扰动变换张量,对相应的子结构进行处理,得到平衡扰动力场模型;计算机设备对平衡扰动力场模型进行调整,得到平衡力场模型。
一些实施例中,预处理组分可以蛋白质-配体复合物中的配体。通过改变配体子结构的空间位置,以及配体在复合物的初始结构中的位置,进行平衡处理的过程中。在一些实施例中,在平衡处理的过程中,蛋白质结构以及蛋白质空间结构是固定的。
有关该过程的具体内容请参考上文实施例,本申请在此不进行赘述。在一些实施例中,平衡处理过程中对预处理组分中的至少一个子结构对应的初始变换张量进行的随机扰动的程度较小,以便预处理组分在复合物中的构象能够较快的调整完成。
在对复合物结构进行调整之前,先对预处理组分的构象进行调整,有助于弥补至少两个组分对接过程导致的误差,有助于提升生成的复合物结构的质量。
在一些实施例中,子结构包括以下至少之一:微组和宏组;其中,微组中包括目标组分中的至少一个原子,宏组中包括目标组分中的至少一个微组;计算机设备根据扰动变换张量对相应的子结构进行空间转换,得到复合物的扰动力场模型是指按照调整顺序分别根据至少一个微组对应的扰动变换张量,对相应的微组进行空间转换;根据至少一个宏组对应的扰动变换张量,对相应的宏组进行空间转换;其中,调整顺序用于指示至少一个微组和至少一个宏组进行空间转换的次序。
在一些实施例中,子结构之间具有层次关系,不同层次的子结构之间可以具有包含关系,例如子结构1包括子结构3。相同层次的子结构之间不存在重叠,由于子结构中包括复合物的组成,因此,对于复合物中的任意一个原子,都至少存在一个包含该原子的子结构。
在一些实施例中,子结构中包括单原子、微组和宏组。其中,微组与微组之间,宏组与宏组之间不存在重叠,微组与微组之间也不存在重叠,微组和宏组之间可以是包含关系,宏组由多个原子组成。在一些实施例中,目标组分中具有多个微组,目标组分中可以具有至少一个宏组,也即微组的总数量大于或者等于宏组的总数量。
参与空间转换的子结构可以包括:单原子、微组、宏组、单原子和微组,也可以包括单原子、微组和宏组等。参与空间转换的子结构可以从目标组分的全部子结构选择,例如选择优化区域中包括的原子所属的子结构,具体方法请参考上文实施例。
在一些实施例中,宏组有多个连续的微组组成。通过上述内容可知,力场模型的转换过程(如:初始力场模型转换成扰乱力场模型、扰乱力场模型转换成中间力场模型和初始力场模型转换成平衡扰乱力场模型等)是通过改变子结构对应的变换张量完成的,也即对至少一个微组和或宏组分别对应的变换向量进行处理。在这个过程中,可以按照一定调整顺序对微组和宏组分别对应的变换向量进行调整。
在一些实施例中,计算机设备确定需要进行空间转换的微组以及宏组,并按照调整顺序,对微组和宏组分别进行空间转换。在一些实施例中,调整顺序用于指示微组整体与宏组整体进行空间转换的次序;其中,微组整体是指参与空间转换的全部微组,宏组整体是指参与空间转换的全部宏组。例如,调整顺序是:微组整体先进行空间转换,宏组整体在微组整体包括的最后一个微组的空间转换结束之后开始进行空间转换。例如,调整顺序是:宏组整体先进行空间转换,微组整体在宏组整体包括的最后一个微组的空间转换结束之后开始进行空间转换。
通过上述方法,一方面通过将子结构进行不同层次的划分,使得复合物的结构调整的过程中拥有更多的自由度。由于微组中包括的原子数量较少,在对微组进行空间转换(改变微组的空间位置)的过程中,受到相邻子结构的影响较大,因此,仅仅通过对微组进行空间转换,会导致复合物的结构调整过程具有一些局限,容易陷入局部最小值。通过引入宏组的概念,使得较多数量的微组或者原子的空间位置能够发生较大的改变,有助于避免陷入局部最小值,有助于提高生成的复合物结构的准确性。
另一方面,计算机设备能够按照调整顺序,分层次对子结构进行空间转换。方便对空间位置发生变换的子结构进行更新。
在一些实施例中,至少两个组分中包括第一组分和第二组分,其中,第一组分和第二组分,第一组分不同于第二组分,方法还包括:计算机设备分别确定第一组分的划分标记和第二组分的划分标记;其中,划分标记包括以下至少之一:可旋转键和残基类型标识;对于第一组分,计算机设备根据第一组分的可旋转键,确定第一组分中的至少一个微组;计算机设备根据第一组分的残基类型标识,确定第一组分中的至少一个宏组;对于第二组分,计算机设备根据第二组分的可旋转键,确定第二组分中的至少一个微组;计算机设备根据第二组分的结构,确定第二组分对应的至少一个宏组。
在一些实施例中,划分标记用于从目标组分中划分得到至少一个子结构。可旋转键是指在形成化学键的两个原子以化学键为轴进行旋转的情况下,不容易引起该化学键断裂。残基类型标识用于指示残基所属的类型。在一些实施例中,残基类型标识通过残基类型确定规则进行判断标记的。对于蛋白质分子来讲,残基类型表示当前子结构所属的二级结构的类型,有关蛋白质二级结构的具体内容请参考上文介绍。
在一些实施例中,通过可旋转键可以从目标组分中划分得到至少一个微组。例如,计算机设备将两个可旋转键之间的片段(连续结构)作为1个微组,或者目标组分边缘到最近可旋转键之间的片段作为一个微组。
在一些实施例中,通过残基类型标志可以从目标组分中划分得到至少一个宏组。例如,将一串连续的具有相同残基类型标识的片段作为一个宏组,也即宏组中包括至少两个残基类型相同的片段。
在一些实施例中,对于不同的目标组分,微组和宏组的划分方式不完全相同,具体请参考下文实施例。
在一些实施例中,第一组分属于受体分子,第二组分属于配体分子;配体分子用于与受体分子结合,改变受体分子的性能;对于第一组分,计算机设备根据第一组分的可旋转键,确定第一组分中的至少一个微组,包括:根据受体分子的组成单元之间的可旋转键,确定至少第一组分中的至少一个微组;或者,对于受体分子中的任意一个组成单元,将组成单元中的主链和侧链分别作为受体分子的微组;计算机设备根据第二组分的结构,确定第二组分对应的至少一个宏组,包括:计算机设备将配体分子作为宏组。
在一些实施例中,受体分子是指为蛋白质。
图9是本申请一个示例性实施例提供的微组划分方法的示意图。
对于蛋白质,每个组成单元:氨基酸中的原子形成自己的微组。此外,氨基酸主链原子913与氨基酸侧链原子915也可以分离成不同的微组。
对于配体分子,分子内被可旋转键921隔开的原子划分称为不同的微组。
在一些实施例中,对微组的转换不仅限于单个旋转或平移。根据需要,应用额外的张量变换模式来模拟系统中不同类型的运动。定义了特殊的旋转模式,其中蛋白质和配体的原子片段可以相对于作为锚轴的可旋转键旋转。具体内容请参考上文实施例,在此不进行赘述。
通过定义微组有助于加速蛋白质一级结构的运动。然而,在蛋白质结构还包括更大的子结构。例如蛋白质的二级和三级结构。为了使蛋白质二级结构的有更大程度的变化,还可以从蛋白质中划分宏组,宏组是指几个相邻且相连的微组的组合。这些宏组可能包含多达数百个原子,并具有各自的平移自由度。由于这种自由度通常包含许多原子,因此可能需要小心使用宏组。
在一些实施例中,允许划分蛋白质环为宏组(根据残基类型标志机型拟合生成宏组)。对于每一个蛋白质,根据二级结构被分割成相互独立的宏组,而配体分子整个作为独立宏组。
图10是本申请一个示例性实施例提供的宏组划分方法的示意图。
对于蛋白质,一段连续的蛋白质环划分成宏组1010。对于配体,配体分子整个作为独立宏组1020。
图11是本申请一个示例性实施例提供的复合物结构生成方法的示意图。
使用小分子的对接结构作为3T(本方法提供的复合物结构生成方法)优化的初始结构(构象),生成调整后的复合物结构。如图11所示,首先提取CDK2的共晶配体并进行对接处理;然后将它们全部对接到同一个CDK2结构1FIN;接下来,处理配体进行力场参数计算;最后进行对复合物结构进行优化。
图12是本申请一个示例性实施例提供的复合物结构生成方法的示意图。
在划分得到至少两个组分中分别对应的微组和宏组并确定各个子结构对应的初始变换张量之后,通过能量优化来生成蛋白质-配体复合体。具体过程如下:
1.固定蛋白质。对于配体中的微组基于可旋转键进行旋转变换,并允许在整个配体进行平移变换(也即对配体进行平衡处理)。
2.优化蛋白质-配体复合物口袋中配体的能量(第二条件等于200个时间步)。
3.定义一个球体的优化区域(模拟蛋白质口袋),其中将优化区域包括的至少一个原子分别对应的微组以及宏组,作为配体和蛋白质中允许移动的微组以及宏组。而球体外部的原子对应的微组以及宏组不进行空间移动(被固定)。识别蛋白质和配体中具有特殊轴旋转的微组,并将微组分组为宏组。
4.向蛋白质-配体复合物进行扰动。在一些实施例中,通过用随机值对可以移动微组、宏组对应的初始变换张量进行调整,以便初始化微组的旋转、平移和特殊轴旋转参数。此外,为一些具有旋转轴微组添加了额外的180度旋转。
5.优化蛋白质-配体复合物口袋的能量(第二条件等于1000步)。在图12表示一次对复合物构象进行一次能量优化的过程。在一次能量优化过程中(基于扰动力场模型得到中间力场模型,或者基于中间力场模型得到优化后的中间力场模型/候选力场模型)的过程),计算机设备根据优化区域,确定可移动原子和固定原子。
在一个示例中,可移动原子是指处于优化区域内部,或者优化区域边缘的原子,也即原子的坐标属于优化区域的范围。固定原子是指处于优化区域之外的原子。在蛋白质-配体复合物中,优化区域可以表征蛋白质-配体口袋。优化区域的范围根据实际需要进行限定。
计算机设备基于可移动原子的初始原子坐标对单个原子进行平移。之后计算机设备根据可移动原子确定待优化子结构。在一些实施例中,待优化子结构中包括微组和宏组至少之一。
在一些实施例中,待优化子结构中包括至少一个可移动原子。计算机设备可以预先将复合物中的组分划分出微组和宏组,并将包括可移动原子的微组和宏组作为待优化子结构。也可以在确定出可移动原子之后,在根据划分规则从复合物中划分得到至少一个待优化子结构。本申请对该过程的发生顺序不进行限定。
在确定出待优化自子结构后,计算机设备对待优化子结构进行分层空间转换。在图12中计算机设备先对微组进行空间转换,在处理完所有微组(待优化的微组)之后,对宏组进行空间转换。
计算机设备也可以先对宏组进行空间转换,再对微组进行空间转换。可选的,计算机设备可以根据调整顺序确定微组和宏组进行空间转换的顺序。调整顺序可以根据实际需要进行设置,本申请在此不及进行限定。
再对微组进行空间转换的过程中,计算机设备可以先对微组进行旋转,在对微组进行平移,也可以先对微组进行平移,在对微组进行旋转。对于一些轴旋转微组,例如,图12中的微组2和微组3,其对应的旋转过程包括轴旋转和中心旋转,两种旋转方式的进行次序不进行限定。例如,可以先对微组进行轴旋转,再对微组进行中心旋转。
在对微组进行空间转换之后,计算机设备对宏组进行空间转换(通过宏组对应的变换张量,对宏组的空间位置进行变换)。可选地,宏组中包括一个以上微组。对于蛋白质,可以只将二级结构中蛋白质环(柔性较好)以及蛋白质三级结构中的特殊结构作为宏组,也即一部分待优化微组不包括在待优化宏组中,力图图12中的微组3。对于配体,可以将完整的配体分子作为一个宏组。
在对待优化宏组分别进行平移和中心旋转之后,得到了一次能量优化后的最终原子坐标。以及包括最终原子坐标的力场模型。随后可以通过损失函数计算该力场模型对应的损失函数值,使用参数优化器根据损失函数值对待优化子结构对应的变换张量分别进行调整。
如上文介绍,需要初始力场模型进行不能方向扰动,一边提升生成的复合物结构的多样性,下面以复合物属于蛋白质-配体复合物为例,对该过程进行介绍说明。
1.获取蛋白质-配体复合物的初始力场模型,该初始力场模型可以通过分子对接实现,具体请参考上文实施例。也可以获取现有的复合物结构对应的初始力场模型。
2.对初始力场模型进行平衡处理处理(其中,配体为待平衡组分),将平衡处理后的力场模型作为初始力场模型。
3.对该初始力场模型进行不同方向的能力扰动,得到多个扰动力场模型,并分别对各个扰动力场模型进行能力优化,得到各个扰动力场模型分别对应的候选力场模型,确定多个候选力场模型分别对应的评估结果,将评估结果较好的前q个作为目标力场模型。
有关该过程的具体内容请参考上文实施例,在此不进行赘述。
图13是本申请一个示例性实施例提供的能量优化过程的示意图。在生成蛋白质-配体复合物的构象过程中,先对复合物中的配体进行能量优化,得到初始力场模型,对初始力场模型进行能量碰撞(初始变换张量的能量劳动过程),之后对蛋白质配体口袋进行能量优化(图13中复合物口袋弛豫),之后生成优化后的蛋白质-配体复合物构象。通过能量优化,使得复合物的构象向能量降低的方向改变,使得最终生成的复合物构象能够接近实际复合物的构象。
在一些实施例中,复合物结构生成方法还包括:在一些实施例中,根据至少一个候选力场模型分别对应的评估结果,得到至少一个训练样本;在一些实施例中,根据训练样本对目标组分的分类模型进行训练;其中,分类模型用于对目标组分进行分类。
分类模型可以是机器学习模型,用于对复合物中的目标组分的活性进行分类。在一些实施例中,分类模型可以是任意一种二分类模型,用于判断某种构象的配体是否具有活性。
在一些实施例中,对于蛋白质-配体复合物,目标组分可以是配体。目标组分的活性分类用于:预测某个构象的配体是否能够与蛋白质分子(稳定地)结合。
由于复合物结构生成方法得到的复合物的结构(构象)与相关技术相比,更接近复合物的真实存在构象,因此使用本方法得到的目标结构,以及评估结果等信息作为训练样本,有助于得到分类效果更好的目标组分分类模型。
在一些实施例中,训练样本中包括:目标组分的结构数据,生成候选力场模型过程中产生的能量特征信息和候选力场模型对应的评估结果。
在一些实施例中,能量特征信息是指中间力场模型对应的损失函数。计算机设备可以在进行能量优化的过程中(通过中间力场模型优化生成扰动力场模型)记录中间力场模型对应的损失函数值,该损失函数值与中间力场模型对应的复合物结构有关。能量特征信息中包括上述损失函数值。在一些实施例中,计算机设备根据扰动力场模型进行逐次优化,在多次优化过程中,挑选至少一个中间力场模型,并记录上述至少一个中间力场模型对应的损失函数值。
在一些实施例中,计算机设备从扰动力场模型转换到候选力场模型过程中,得到的多个中间力场模型中挑选至少一个,并记录至少一个候选力场模型对应的损失函数值。计算机设备可以随机挑选,或者每隔x个时间步长,或者挑选特定时间步长对应的中间力场模型(例如,挑选第1,7,13,17次对应的中间力场模型……),最终得到t个中间力场模型,其中,x、t为正整数。需要说明的是,能力特征信息中包括的至少一个损失函数值对应的中间力场模型的挑选方式可以根据实际需要进行设置,本申请在此不进行限定。
例如,一种进行了M个时间步长的优化过程,计算机设备可以每隔N个时间步长,将对应的中间力场模型的损失函数值作为一个能力特征信息单元,最终得到M/N个能力特征信息单元,也即能量特征信息中包括M/N个中间力场模型的损失函数值,其中,M/N表示M除以N取整(包括向上取整或向下取整)。
在一个示例中,在复合物结构生成过程中需要进行2200个时间步长的优化过程(每个优化过程中分别对待优化子结构的空间分布进行调整),每隔100个时间步长获取当前的中间力场参数模型对应的损失函数值,共得到22个中间力场模型的损失函数值。也即该训练样本中的能量特征信息中包括:22个上述损失函数值。
在一些实施例中,训练样本中包括:目标组分的构象(对接生成复合物的初始结构前,目标组分的结构数据)、平衡处理后复合物的构象(平衡处理后复合物的结构数据,平衡处理是针对目标组分(如配体)进行的)、生成候选力场模型过程中的至少一个中间力场模型对应的损失函数值和候选力场模型的评估结果。
在一些实施例中,训练样本中还可以包括不同扰动方向对应的能量特征信息以及各个扰动方向分别对应的候选力场模型的评估结果。例如,在复合物结构生成过程中进行了100个不同方向的能量扰动,也即针对相同的初始力场模型(或者平衡处理后得到力场模型)进行了100次复合物结构生成过程,通过在不同的方向的能力扰动,得到100个扰动力场模型,并对各个扰动力场模型分别进行了能量优化,最终得到各个扰动力场模型相对应的候选力场模型。计算机设备在上述100个候选力场模型中挑选10个候选力场模型。
在这种情况下,训练数据中包括:1个目标组分的初始结构、1个平衡处理后的到的复合物的结构,以及10个3T优化生成的复合物结构和220个与蛋白质-配体口袋优化过程相关的能量特征信息(也即10个优化得到的复合物构象,每个结构优化过程中包括2200步,每100步采样一个损失函数值(能量值))。
通过能量特征信息能够描述结构优化过程中可以描述局部能量最小值附近的能量图景,有助于提高目标组分的分类模型的分类准确定。
在通过本方法生成复合物结构的过程中,可以通过多个中间力场模型得到优化过程中的中间构象对应的损失函数值,该损失函数值与调整优化过程中复合物的中间结构的能量有关。我们还可以使用3T能量作为附加特征来改善分类结果。相关技术中,唯一可用的特征是蛋白质-配体整体对接结构的对接分数。第二强的技术优势可能是优势,因为我们不需要执行长MD模拟或进行X射线结构表征来获得大量的蛋白质-配体口袋构象。
下面介绍本申请介绍的复合物构象生成方法的相关实验数据。
图14是本申请一个示例性实施例提供的复合物结构生成的准确性的示意图。图14.3T生成配体构象的评估。a)本研究中使用的三种蛋白质的口袋构象。b)ΔRMSD计算过程的工作流程。c)生成CDK2蛋白口袋的配体ΔRMSD分布。d)ΔRMSDinit的散点图。
为了评估我们生成的构象结构的质量,我们将这些3T生成的结构与已知的蛋白质-配体复合物共晶结构进行了比较。在这项工作中,我们为三种不同的蛋白质生成3T蛋白质-配体复合物构象:CDK2、HSP90(热休克蛋白90)和FXa(活化凝血因子)。CDK2的口袋是一个较大的有一定柔性(容易延展变形)的口袋,HSP9口袋是一个较小的刚性(延展性差)的口袋,而FXa活性位点是一个则介于两者之间。
对于这些蛋白质,我们从蛋白质数据库(PDB)中提取一个代表结构,分别1fin、1uyg和1ezq(如图14a所示)。3T结构生成需要一个初始蛋白质-配体构象结构作为初始构象,因此对于来自已知共晶结构的每个配体,我们使用smina对它们各自的蛋白质靶结构进行分子对接。选择具有最低对接分数的对接配体结构作为我们的初始结构。对于每个初始蛋白质-配体复合结构,我们通过简单地改变初始结构上3T扰动的随机数种子,使用3T生成10个构象结构。我们使用smina的打分功能评估这10个生成的构象,并选择得分最低的3个结构进行比较。
使用与共晶结构配体的均方根误差(Root Mean Square Deviation,RMSD)来对生成的配体构象进行衡量。为了定量显示本申请提供的3T优化所带来的改进,我们将3T结构(通过3T优化生成的结构)的配体RMSD与初始smina对接的蛋白质-配体结构进行比较,确定生成的构象与初始构象之间的均方根误差ΔRMSD:
ΔRMSD=RMSDinit-RMSD3T
其中,RMSDinit表示共晶结构配体中的均方根误差,RMSD3T表示优化后的共晶结构配体中的均方根误差。数值为正的ΔRMSD的配体越多,就表示3T优化能够越有效地产生接近实验共晶的蛋白质-配体复合物的构象。
图14b示出了计算ΔRMSD的流程示意图。我们之前为CDK2数据集选择的3个配体构象中最好的ΔRMSD分布图如图14c所示。如图14c和表1所示,对于CDK2数据集中83%的初始蛋白质-配体复合物,3T优化能够生成数值为正的的新构象。
此外,使用smina对接分数对第二和第三的初始构象(CDK2数据集)进一步验证3T结构生成质量的一致性,通过表1可以看出,≥80%的配体通过3T优化,与其初始结构相比可以生成更真实的配体对接构象。我们随后将3T结构生成和质量分析扩展到HSP90和FXa蛋白的蛋白质-配体复合口袋构象生成中。我们使用与CDK2相同的3T超参数(rcutoff和能量干扰强度)来生成HSP90和FXa构象,以研究蛋白质差异对生成的蛋白质-配体口袋结构的影响。我们对HSP90非常感兴趣,因为它的蛋白质口袋与CDK2蛋白质的口袋相比要更加刚性。对于HSP90和FXa蛋白,分别可以提升70%和58%的配体构象。有趣的是,当蛋白质是最灵活的CDK2时,获得了最好的结构改进效果。而对于相对刚性的HSP90,结构改进效果稍差一些,因此,实验进一步尝试通过不允许口袋中的HSP90蛋白质中的原子移动,而只对配体进行3T能量扰动。在这种情况下,配体构象的ΔRMSD进一步下降至这表明在蛋白质-配体复合物口袋生成过程中,对蛋白质中的原子进行空间转换,对于生成准确的构象来说是至关重要的(具体数据详见表1:与原始smina对接构象参考相比,3T构象的配体对接构象改进的统计数据表)。
对于FXa,蛋白质数据集中已知的共晶体结构较少,只有106个(CDK2和HSP90数据集分别为308和223)。如表1所示,smina生成的FXa的第一个对接构象的这解释了3T为何在此靶点上,只有58%的整体提升。
表1
活性配体分类;
与使用其他更昂贵的方法(如分子动力学模拟)获得的蛋白质-配体复合物口袋结构相比,我们进一步评估了本申请提供的3生成的蛋白质-配体复合物构象在活性配体分类应用中的实用性。
图15是本申请一个示例性实施例提供的配体活性分类的示意图。
最近研究表明,将潜在的候选药物配体分子对接到单个刚性蛋白质口袋上不足以进行活性配体分类,因为这种方法很难将能够结合的配体与不结合的配体分开。事实上,简单的对接分数评估是不够的,需要在集成对接分数的基础上构建机器学习算法,以得到配体分类器。一般来说,蛋白质构象的获取较为困难。
通常将讲配体(A)对接到取自不同蛋白质-配体(B-C)复合物的刚性蛋白质结构(B)上,或对接到从MD中获取的蛋白质结构(D)。而3T优化可以明确地针对所需的蛋白质-配体(B-A)复合物进行定制,生成优化后的蛋白质-配体(B-A)构象。
类比Ricci-Lopez等人用到的集成对接方式来证明本申请提供的3T优化(复合物结构的生成方法)在活性配体分类中的效果。在集成对接工作中,根据数据集(CDK2:402,HSP90:64,FXa:136)对不同数量的刚性蛋白质结构进行配体对接。
而在我们的方法中,我们简单地基CDK2、HSP90和FXa分别对应的一个蛋白构象,与配体对接生成10个3T优化后的构象结构。然后我们采用30×4交叉验证(30×4cv)和GBT(梯度增强树)分类器进行机器学习训练。值得注意的是,3T优化不仅可以产生蛋白质-配体复合口袋构象,而且在其结构优化过程中可以描述局部能量最小值附近的能量图景。
通常情况下,不仅是蛋白质-配体口袋结构的形状决定配体与目标蛋白质口袋结合的稳定性,复合物能量最小值附近的能量图景也会影响配体与目标蛋白质口袋结合的稳定性。
因此,还可以使用在3T优化期间生成的中间体能量作为配体分类的附加特征。该特征提取过程和随后的30×4cv分类过程如图15所示,其中对于每个蛋白质-配体复合物,3T优化生成了10个构象,对于每个构象,我们提取了最终构象的对接分数以及优化过程中的能量ΔE:
ΔE=E(complex,3T)-E(ligand,3T)-E(protein,init)
因此,我们得到12个与3T结构对接分数相关的特征(1个初始对接结构,1个在3T能量干扰前只有配体原子优化的结构,以及10个使用3T生成的结构)和220个与蛋白质-配体口袋优化过程能量相关的特征(10个构象,每个构象2200步,每100步采样一个能量值)。由于蛋白质口袋大小的差异,对于CDK2,rcutoff采用HSP90和FXa的rcutoff采用/>
为了与相关技术公平比较,并直接比较不同数据集样本分布,使用曲线下面积AUC-ROC和归一化富集因子NEFχ=as/min(χm,a)来评估预测效果。
归一化富集因子NEFχ:NEFχ=as/min(χm,a)
其中,m是数据集中配体的总数,χ是活性配体的比例(设置为χ=Ra=a/m),a是真正的活性配体的总数,as是预测活性配体数量。结果如图14b所示,对于CDK2,采用10个3T蛋白质-配体复合物构象构建特征相较于整体对接对活性配体的分类效果都显著要好。对于HSP90和FXA同样如此(图15c,表2)。HSP90的性能提升尤其大,它是三者中口袋刚性最强的蛋白质(口袋构象多样性最少)。如果我们在3T构象生成过程中冻结HSP90口袋(刚性蛋白质和柔性配体原子),模型的分类性能将显着降低(表2:使用3T特征和GBT分类器对3种不同蛋白质的活性配体进行分类的评估表)。
表2
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图16示出了本申请一个示例性实施例提供的复合物结构的生成装置的框图。该装置1600可以包括:模型获取模块1610、空间转换模块1620、结构评估模块1630和结构筛选模块1640。
模型获取模块1610,用于获取复合物的初始力场模型,所述复合物包括至少两个组分,所述初始力场模型用于表征所述复合物的初始结构。
空间转换模块1620,用于根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型;其中,所述空间转换用于改变所述子结构中至少一个原子的空间位置。
结构评估模块1630,用于确定所述候选力场模型的评估结果,所述评估结果用于指示所述候选力场模型对应的复合物结构的有效性。
结构筛选模块1640,用于在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型。
在一些实施例中,所述空间转换模块1620包括:结构扰动单元,用于根据所述初始力场模型,对所述目标组分包含的至少一个子结构分别进行扰动处理,得到所述复合物的扰动力场模型;其中,所述扰动力场模型用于表征进行扰动处理后的复合物的结构;结构调整单元,用于对所述扰动力场模型进行调整,得到所述复合物的候选力场模型。
在一些实施例中,所述结构扰动单元包括:张量确定子单元,用于根据所述初始力场模型,确定所述至少一个子结构分别对应的初始变换张量;其中,所述初始变换张量用于表示所述子结构中至少一个原子的空间位置;张量扰动子单元,用于对所述子结构对应的初始变换张量进行随机扰动,得到所述子结构对应的扰动变换张量;其中,所述扰动变换张量用于转换所述子结构中至少一个原子的空间位置;空间转换子单元,用于根据所述扰动变换张量对相应的子结构进行空间转换,得到所述复合物的扰动力场模型。
在一些实施例中,所述初始变换张量中包括以下至少之一:平移矩阵和旋转矩阵,其中,所述平移矩阵用于表征所述子结构中至少一个原子的平移自由度,所述旋转矩阵用于表征所述子结构中至少一个原子的旋转自由度。
在一些实施例中,所述子结构包括微组;其中,所述微组中包括所述目标组分中的至少一个原子;张量扰动子单元,用于在所述子结构属于轴旋转微组的情况下,对所述初始变换张量中的所述平移矩阵进行第一随机扰动;其中所述第一随机扰动通过生成随机数确定;对所述初始变换张量中的所述旋转矩阵分别进行所述第一随机扰动和第二随机扰动,其中,所述第二随机扰动通过概率参数和固定扰动角度确定;其中,所述轴旋转微组中存在一个原子与除了所述轴旋转微组中的原子以外的其他原子形成可旋转键,使得所述轴旋转微组中的至少一个原子能够以所述可旋转键为轴进行旋转。
在一些实施例中,所述装置1600还包括:多次转换模块(图16中未示出),用于对所述初始力场模型分别进行n个空间转换过程,得到所述n个空间转换过程分别对应的候选力场模型;其中,所述n为大于1的整数,在任意两个所述空间转换过程中存在至少一个子结构进行了不同方向的空间转换;对于每一个所述候选力场模型,执行所述确定所述候选力场模型的评估结果,在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型的步骤。
在一些实施例中,所述结构调整单元,用于计算所述扰动力场模型对应的损失函数值,所述损失函数值用于表征扰动处理后所述复合物的结构的稳定性能;根据所述损失函数值,对所述至少一个子结构分别对应的扰动变换张量进行调整,得到所述至少一个子结构分别对应的中间变化张量;其中,所述中间变换张量用于改变所述子结构中至少一个原子的空间位置;根据至少一个所述中间变换张量对相应的子结构进行空间转换,得到中间力场模型;在所述中间力场模型满足第二条件的情况下,将所述中间力场模型作为所述优化力场模型。
在一些实施例中,所述装置1600还包括,子结构确定模型(图16中未示出),用于确定所述复合物对应的优化区域;其中,所述优化区域用于标识所述复合物结构中参与构象优化的子结构的范围;对于任意一个候选子结构,在所述候选子结构中具有至少一个原子的空间位置位于所述优化区域以内的情况下,将所述候选子结构作为待优化的子结构;其中,所述待优化的子结构用于参与空间转换过程。
在一些实施例中,所述模型获取模块1610,包括:获取所述至少两个组分分别对应的结构数据,所述结构数据用于表示所述组分的三维空间结构;根据所述至少两个组分分别对应的结构数据进行对接,得到所述复合物对应的结构数据;其中,所述复合物对应的结构数据用于表示所述复合物的三维空间结构;获取所述复合物中所述至少两个组分分别对应的力场参数;其中,所述力场参数用于表征所述组分中至少一个原子在所述复合物中的受力情况;对所述复合物的结构数据和所述至少两个组分分别对应的力场参数进行处理,得到所述复合物对应的初始力场模型。
在一些实施例中,所述装置1600还包括,平衡扰动模块(图16中未示出),用于根据所述初始力场模型,对所述目标组分进行平衡处理,得到所述平衡力场模型;其中,所述平衡处理用于提高所述复合物中预处理组分中的至少一个原子的空间位置的合理性;其中,所述平衡力场模型用于表征进行平衡处理之后得到的复合物的构象;模型替换模块,用于将所述平衡力场模型,作为所述复合物对应的初始力场模型。
在一些实施例中,所述平衡扰动模块,用于根据所述初始力场模型,确定所述预处理组分中至少一个子结构对应的初始变换张量;分中至少一个子结构对应的初始变换张量进行平衡扰动,分别得到对应的平衡扰动变换张量;根据至少一个所述平衡扰动变换张量,对相应的子结构进行处理,得到平衡扰动力场模型;对所述平衡扰动力场模型进行调整,得到所述平衡力场模型。
在一些实施例中,所述子结构包括以下至少之一:微组和宏组;其中,所述微组中包括目标组分中的至少一个原子,所述宏组中包括所述目标组分中的至少一个所述微组;所述根据所述扰动变换张量对相应的子结构进行空间转换,得到所述复合物的扰动力场模型是指按照调整顺序分别根据至少一个所述微组对应的扰动变换张量,对相应的微组进行空间转换;根据至少一个所述宏组对应的扰动变换张量,对相应的宏组进行空间转换;其中,所述调整顺序用于指示所述至少一个微组和所述至少一个宏组进行空间转换的次序。
在一些实施例中,所述至少两个组分中包括第一组分和第二组分,其中,所述第一组分和所述第二组分,所述第一组分不同于所述第二组分,所述装置1600还包括:子结构划分模块,用于分别确定所述第一组分的划分标记和所述第二组分的划分标记;其中,所述划分标记包括以下至少之一:可旋转键和残基类型标识;对于所述第一组分,根据所述第一组分的可旋转键,确定所述第一组分中的至少一个微组;根据所述第一组分的残基类型标识,确定所述第一组分中的至少一个宏组;对于所述第二组分,根据所述第二组分的可旋转键,确定所述第二组分中的至少一个微组;根据所述第二组分的结构,确定所述第二组分对应的至少一个宏组。
在一些实施例中,所述第一组分属于受体分子,所述第二组分属于配体分子;所述配体分子用于与受体分子结合,改变所述受体分子的性能;对于所述第一组分,子结构划分模块,用于根据所述受体分子的组成单元间的可旋转键,确定至少所述第一组分中的至少一个微组;或者,对于所述受体分子中的任意一个组成单元,将所述组成单元中的主链和侧链分别作为所述受体分子的所述微组;对于所述第二组分,子结构划分模块,用于将所述配体分子作为所述宏组。
在一些实施例中,所述装置1600还包括:分类训练模块,用于根据至少一个所述候选力场模型分别对应的评估结果,得到至少一个训练样本;根据所述训练样本对所述目标组分的分类模型进行训练;其中,所述分类模型用于对所述目标组分进行分类。
在一些实施例中,所述训练样本中包括:所述目标组分的结构数据,生成所述候选力场模型过程中产生的能量特征信息和所述候选力场模型对应的评估结果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。上述实施例提供的装置的有益效果请参考方法侧实施例的描述,这里也不再赘述。
图17示出了本申请一个示例性实施例提供的计算机设备的结构框图。
通常,计算机设备1700包括有:处理器1701和存储器1702。
处理器1701可以包括一个或多个处理核心,比如4核心处理器、17核心处理器等。处理器1701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器1702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1702中的非暂态的计算机可读存储介质存储有计算机程序,该计算机程序由处理器1701加载并执行以实现上述各方法实施例提供的复合物结构的生成方法。
本领域技术人员可以理解,图17中示出的结构并不构成对计算机设备1700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述各方法实施例提供的复合物结构的生成方法。
该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM(RandomAccess Memory,随机存取存储器)、ROM(Read-Only Memory,只读存储器)、EPROM(ErasableProgrammable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述各方法实施例提供的复合物结构的生成方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请中的各个实施例可以自由组合。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种复合物结构的生成方法,其特征在于,所述方法包括:
获取复合物的初始力场模型,所述复合物包括至少两个组分,所述初始力场模型用于表征所述复合物的初始结构;
根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型;其中,所述空间转换用于改变所述子结构中至少一个原子的空间位置;
确定所述候选力场模型的评估结果,所述评估结果用于指示所述候选力场模型对应的复合物结构的有效性;
在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型,包括:
根据所述初始力场模型,对所述目标组分包含的至少一个子结构分别进行扰动处理,得到所述复合物的扰动力场模型;其中,所述扰动力场模型用于表征进行扰动处理后的复合物的结构;
对所述扰动力场模型进行调整,得到所述复合物的候选力场模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始力场模型,对所述目标组分包含的至少一个子结构分别进行扰动处理,得到所述复合物的扰动力场模型,包括:
根据所述初始力场模型,确定所述至少一个子结构分别对应的初始变换张量;其中,所述初始变换张量用于表示所述子结构中至少一个原子的空间位置;
对所述子结构对应的初始变换张量进行随机扰动,得到所述子结构对应的扰动变换张量;其中,所述扰动变换张量用于转换所述子结构中至少一个原子的空间位置;
根据所述扰动变换张量对相应的子结构进行空间转换,得到所述复合物的扰动力场模型。
4.根据权利要求3所述的方法,其特征在于,所述初始变换张量中包括以下至少之一:平移矩阵和旋转矩阵,其中,所述平移矩阵用于表征所述子结构中至少一个原子的平移自由度,所述旋转矩阵用于表征所述子结构中至少一个原子的旋转自由度。
5.根据权利要求4所述的方法,其特征在于,所述子结构包括微组;其中,所述微组中包括所述目标组分中的至少一个原子;
所述对所述子结构对应的初始变换张量进行随机扰动,得到所述子结构对应的扰动变换张量,包括:
在所述子结构属于轴旋转微组的情况下,对所述初始变换张量中的所述平移矩阵进行第一随机扰动;其中所述第一随机扰动通过生成随机数确定;对所述初始变换张量中的所述旋转矩阵分别进行所述第一随机扰动和第二随机扰动,其中,所述第二随机扰动通过概率参数和固定扰动角度确定;
其中,所述轴旋转微组中存在一个原子与除了所述轴旋转微组中的原子以外的其他原子形成可旋转键,使得所述轴旋转微组中的至少一个原子能够以所述可旋转键为轴进行旋转。
6.根据权利要求2所述的方法,其特征在于,所述对所述扰动力场模型进行调整,得到所述复合物的候选力场模型,包括:
计算所述扰动力场模型对应的损失函数值,所述损失函数值用于表征扰动处理后所述复合物的结构的稳定性能;
根据所述损失函数值,对所述至少一个子结构分别对应的扰动变换张量进行调整,得到所述至少一个子结构分别对应的中间变化张量;其中,所述中间变换张量用于改变所述子结构中至少一个原子的空间位置;
根据至少一个所述中间变换张量对相应的子结构进行空间转换,得到中间力场模型;
在所述中间力场模型满足第二条件的情况下,将所述中间力场模型作为所述优化力场模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述初始力场模型分别进行n个空间转换过程,得到所述n个空间转换过程分别对应的候选力场模型;其中,所述n为大于1的整数,在任意两个所述空间转换过程中存在至少一个子结构进行了不同方向的空间转换;
对于每一个所述候选力场模型,执行所述确定所述候选力场模型的评估结果,在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型的步骤。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述复合物对应的优化区域;其中,所述优化区域用于标识所述复合物结构中参与构象优化的子结构的范围;
对于任意一个候选子结构,在所述候选子结构中具有至少一个原子的空间位置位于所述优化区域以内的情况下,将所述候选子结构作为待优化的子结构;其中,所述待优化的子结构用于参与空间转换过程。
9.根据权利要求1所述的方法,其特征在于,所述获取复合物的初始力场模型,包括:
获取所述至少两个组分分别对应的结构数据,所述结构数据用于表示所述组分的三维空间结构;
根据所述至少两个组分分别对应的结构数据进行对接,得到所述复合物对应的结构数据;其中,所述复合物对应的结构数据用于表示所述复合物的三维空间结构;
获取所述复合物中所述至少两个组分分别对应的力场参数;其中,所述力场参数用于表征所述组分中至少一个原子在所述复合物中的受力情况;
对所述复合物的结构数据和所述至少两个组分分别对应的力场参数进行处理,得到所述复合物对应的初始力场模型。
10.根据权利要求1所述的方法,其特征在于,在所述得到所述复合物对应的初始力场模型之后,还包括:
根据所述初始力场模型,对所述预处理组分进行平衡处理,得到所述平衡力场模型;其中,所述平衡处理用于提高所述复合物中预处理组分中的至少一个原子的空间位置的合理性;其中,所述平衡力场模型用于表征进行平衡处理之后得到的复合物的构象;
将所述平衡力场模型,作为所述复合物对应的初始力场模型。
11.根据权利要求10所述的方法,其特征在于,所述根据所述初始力场模型,对所述预处理组分进行平衡处理得到所述平衡力场模型,包括:
根据所述初始力场模型,确定所述预处理组分中至少一个子结构对应的初始变换张量;其中,所述预处理组分是指所述至少两个组分中的至少一个;
对所述预处理组分中至少一个子结构对应的初始变换张量进行平衡扰动,分别得到对应的平衡扰动变换张量;
根据至少一个所述平衡扰动变换张量,对相应的子结构进行处理,得到平衡扰动力场模型;
对所述平衡扰动力场模型进行调整,得到所述平衡力场模型。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述子结构包括以下至少之一:微组和宏组;其中,所述微组中包括目标组分中的至少一个原子,所述宏组中包括所述目标组分中的至少一个所述微组;
所述根据所述扰动变换张量对相应的子结构进行空间转换,得到所述复合物的扰动力场模型是指按照调整顺序分别根据至少一个所述微组对应的扰动变换张量,对相应的微组进行空间转换;根据至少一个所述宏组对应的扰动变换张量,对相应的宏组进行空间转换;
其中,所述调整顺序用于指示所述至少一个微组和所述至少一个宏组进行空间转换的次序。
13.根据权利要求12所述的方法,其特征在于,所述至少两个组分中包括第一组分和第二组分,其中,所述第一组分和所述第二组分,所述第一组分不同于所述第二组分,所述方法还包括:
分别确定所述第一组分的划分标记和所述第二组分的划分标记;其中,所述划分标记包括以下至少之一:可旋转键和残基类型标识;
对于所述第一组分,根据所述第一组分的可旋转键,确定所述第一组分中的至少一个微组;
根据所述第一组分的残基类型标识,确定所述第一组分中的至少一个宏组;
对于所述第二组分,根据所述第二组分的可旋转键,确定所述第二组分中的至少一个微组;
根据所述第二组分的结构,确定所述第二组分对应的至少一个宏组。
14.根据权利要求13所述的方法,其特征在于,所述第一组分属于受体分子,所述第二组分属于配体分子;所述配体分子用于与受体分子结合,改变所述受体分子的性能;
所述对于所述第一组分,根据所述第一组分的可旋转键,确定所述第一组分中的至少一个微组,包括:
根据所述受体分子的组成单元间的可旋转键,确定至少所述第一组分中的至少一个微组;
或者,
对于所述受体分子中的任意一个组成单元,将所述组成单元中的主链和侧链分别作为所述受体分子的所述微组;
所述根据所述第二组分的结构,确定所述第二组分对应的至少一个宏组,包括:
将所述配体分子作为所述宏组。
15.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据至少一个所述候选力场模型分别对应的评估结果,得到至少一个训练样本;
根据所述训练样本对所述目标组分的分类模型进行训练;其中,所述分类模型用于对所述目标组分进行分类。
16.根据权利要求15所述的方法,其特征在于,所述训练样本中包括:所述目标组分的结构数据,生成所述候选力场模型过程中产生的能量特征信息和所述候选力场模型对应的评估结果。
17.一种复合物结构的生成装置,其特征在于,所述装置包括:
模型获取模块,用于获取复合物的初始力场模型,所述复合物包括至少两个组分,所述初始力场模型用于表征所述复合物的初始结构;
空间转换模块,用于根据所述初始力场模型,对所述至少两个组分中目标组分包含的至少一个子结构分别进行空间转换,得到所述复合物的候选力场模型;其中,所述空间转换用于改变所述子结构中至少一个原子的空间位置;
结构评估模块,用于确定所述候选力场模型的评估结果,所述评估结果用于指示所述候选力场模型对应的复合物结构的有效性;
结构筛选模块,用于在所述评估结果满足第一条件的情况下,将所述候选力场模型作为所述复合物的目标力场模型。
18.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至16任一项所述的复合物结构的生成方法。
19.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行,以实现如权利要求1至16任一项所述的复合物结构的生成方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至16任一项所述的复合物结构的生成方法。
CN202210939891.1A 2022-08-05 2022-08-05 复合物结构的生成方法、装置、设备及存储介质 Pending CN116994660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210939891.1A CN116994660A (zh) 2022-08-05 2022-08-05 复合物结构的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210939891.1A CN116994660A (zh) 2022-08-05 2022-08-05 复合物结构的生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116994660A true CN116994660A (zh) 2023-11-03

Family

ID=88525358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210939891.1A Pending CN116994660A (zh) 2022-08-05 2022-08-05 复合物结构的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116994660A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117976036A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 复合物结构预测方法、装置、电子装置及存储介质
CN117976036B (zh) * 2024-03-29 2024-05-31 苏州元脑智能科技有限公司 复合物结构预测方法、装置、电子装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117976036A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 复合物结构预测方法、装置、电子装置及存储介质
CN117976036B (zh) * 2024-03-29 2024-05-31 苏州元脑智能科技有限公司 复合物结构预测方法、装置、电子装置及存储介质

Similar Documents

Publication Publication Date Title
CN112201313A (zh) 一种自动化的小分子药物筛选方法和计算设备
Walsh et al. Ab initio and template-based prediction of multi-class distance maps by two-dimensional recursive neural networks
Sunny et al. Protein–protein docking: Past, present, and future
Zhang et al. State-dependent sequential allostery exhibited by chaperonin TRiC/CCT revealed by network analysis of Cryo-EM maps
Souza et al. Perspectives on high-throughput ligand/protein docking with martini MD simulations
Wang et al. Prediction of protein self-interactions using stacked long short-term memory from protein sequences information
Spackman et al. Informatics and computational methods in physical chemistry: crystal structures, electron impact mass spectra and thermochemistry
Chen et al. PubChem BioAssays as a data source for predictive models
Brinkhaus et al. Open data and algorithms for open science in AI-driven molecular informatics
WO2022082739A1 (zh) 基于卷积神经网络预测蛋白和配体分子结合自由能的方法
Gu et al. Surface‐histogram: A new shape descriptor for protein‐protein docking
WO2024060939A1 (zh) 分子表示方法及电子设备
Shatabda et al. How good are simplified models for protein structure prediction?
Jalali et al. MOFGalaxyNet: a social network analysis for predicting guest accessibility in metal–organic frameworks utilizing graph convolutional networks
Sevink et al. Unfolding the prospects of computational (bio) materials modeling
Braun et al. Mapping of Protein Binding Sites using clustering algorithms-Development of a pharmacophore based drug discovery tool
Ashton et al. An algorithm to generate synthetic 3D microstructures from 2D exemplars
CN116994660A (zh) 复合物结构的生成方法、装置、设备及存储介质
Liu et al. A unified framework for packing deformable and non-deformable subcellular structures in crowded cryo-electron tomogram simulation
Qu et al. Water Network-Augmented Two-State Model for Protein–Ligand Binding Affinity Prediction
Baltrukevich et al. From Data to Knowledge: Systematic Review of Tools for Automatic Analysis of Molecular Dynamics Output
Bajaj et al. A dynamic data structure for flexible molecular maintenance and informatics
Ghanbarpour et al. On-the-fly prediction of protein hydration densities and free energies using deep learning
Park et al. Statistical inference on three-dimensional structure of genome by truncated Poisson architecture model
Wang et al. SAPocket: Finding pockets on protein surfaces with a focus towards position and voxel channels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination