CN115527607A - 一种药物分子和蛋白靶点结合姿势预测处理方法 - Google Patents
一种药物分子和蛋白靶点结合姿势预测处理方法 Download PDFInfo
- Publication number
- CN115527607A CN115527607A CN202211281707.5A CN202211281707A CN115527607A CN 115527607 A CN115527607 A CN 115527607A CN 202211281707 A CN202211281707 A CN 202211281707A CN 115527607 A CN115527607 A CN 115527607A
- Authority
- CN
- China
- Prior art keywords
- drug molecule
- information
- protein target
- drug
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例涉及一种药物分子和蛋白靶点结合姿势预测处理方法,所述方法包括:步骤1、利用第一机器学习模型,输入独立的蛋白靶点结构信息和药物分子结构信息,得到和输出第一药物分子和蛋白靶点的结合姿势信息;步骤2、利用所述第一药物分子和蛋白靶点的结合姿势信息,对药物分子对接打分函数添加偏置项,形成偏置项打分函数;步骤3、根据所述偏置项打分函数,利用分子对接算法,输入独立的蛋白靶点结构信息和药物分子结构信息,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。本发明实施例提供的药物分子和蛋白靶点结合姿势预测处理方法,有效的提高了药物分子和蛋白靶点结合姿势预测的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种药物分子和蛋白靶点结合姿势预测处理方法。
背景技术
药物分子和蛋白靶点产生相互作用是药物效应的基础。要准确评估药物分子和蛋白靶点间的相互作用强度,需要得到蛋白靶点和小分子之间合理的结合姿态(BindingPose,即两者的相对位置)。
现有的预测结合姿态的方法是分子对接,是一种蛋白靶点和药物分子复合物结合姿态的搜索方法,将药物分子放置在蛋白靶点的空腔内,并通过打分函数,基于结合姿态进行能量评估来指导结合姿态的搜索和优化。打分函数对能量的评估决定了结合姿态预测的好坏。但打分函数往往是有限个近似能量项的经验性加权求和,其预测的能量评估误差较大,导致其对结合姿态的预测能力有限。
如Vina打分函数指导下的分子对接,在CASF-2016数据集上,只能实现68%的药物分子-蛋白靶点结合姿态预测成功率(成功率以预测得到的药物分子的结合位置和真实晶体结构中的药物分子的结合位置的均方根距离RMSD小于2.0埃)。
另外,还有机器学习模型尝试去替代打分函数,也就是以蛋白靶点-药物分子的结合姿态作为输入,以他们的能量评估作为输出。但是由于分子对接过程中,需要不断地进行结合姿态搜索->基于打分函数进行能量评估->结合姿态优化这样的过程,会反复调用打分函数。同时,分子对接面向的虚拟筛选场景,要评估的分子数又比较巨大,因此对效率的需求极高。因此现有的打分函数都使用比较简单的函数形式,并通过构建格点能量表来加速实际的能量评估过程,所以这也是为什么打分函数是能量项经验加权求和形式的原因,因为必须要有确定性,且要求比较简单。而机器学习模型并不能满足效率的需求,由此基于机器学习模型的打分函数无法应用在分子搜索过程中。
发明内容
本发明的目的是针对现有技术的缺陷提供一种药物分子和蛋白靶点结合姿势预测处理方法,用于药物分子和蛋白靶点结合姿势预测,可以有效提升药物分子和蛋白靶点结合姿势预测的准确率。
为此,第一方面,本发明实施例提供了一种药物分子和蛋白靶点结合姿势预测处理方法,所述方法包括:
步骤1、利用第一机器学习模型,输入独立的蛋白靶点结构信息和药物分子结构信息,得到和输出第一药物分子和蛋白靶点的结合姿势信息;
步骤2、利用所述第一药物分子和蛋白靶点的结合姿势信息,对药物分子对接打分函数添加偏置项,形成偏置项打分函数;
步骤3、根据所述偏置项打分函数,利用分子对接算法,输入独立的蛋白靶点结构信息和药物分子结构信息,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。
进一步的,所述步骤1具体为:利用卷积神经网络机器学习模型,把蛋白靶点结构信息和药物分子结构信息转化为蛋白分子密度图或蛋白分子点云;以药物分子密度图或药物分子点云作为条件,在所述蛋白分子密度图或蛋白分子点云的空腔中生成药物分子密度图,并将所述药物分子密度图解析还原成第一药物分子和蛋白靶点的结合姿势信息;或者利用图神经网络机器学习模型,构建蛋白靶点的原子或氨基酸残基与药物分子上的原子作为图的节点;在两两之间的节点之间构建一条边来表示它们间的相对距离;基于预测蛋白靶点与药物分子结合后的相对距离,并根据距离矩阵来还原成第一药物分子和蛋白靶点的结合姿势信息;或者利用坐标预测自注意力模型,输入蛋白靶点上原子的空间坐标信息和药物分子上原子的空间坐标信息,预测药物分子上每个原子相对于初始位置的改变,来计算得到第一药物分子和蛋白靶点的结合姿势信息。
进一步的,所述步骤2中对分子对接打分函数添加偏置项具体为:以药物分子结构中的原子的空间坐标R为中心,指定在药物分子对接过程中,满足类型信息的原子出现在离这个中心第一半径r的范围内时,给能量项赋一个偏置L;其中,所述原子的空间坐标R来自于所述第一药物分子和蛋白靶点的结合姿势信息中的原子或多原子组的原子团;类型信息T来自于该空间坐标对应的原子的元素类型、芳香性、是否为环上的原子、是否为氢键给体、是否是氢键受体或对应的原子团的属性;第一半径r是类型信息T的函数;能量项的偏置L是空间坐标R、第一半径r和类型信息T的函数。
进一步的,所述偏置为能量项的奖励,或者能量项的惩罚,随着空间坐标R的第一半径r衰减。
进一步的,所述能量项的奖励及大小,或者能量项的惩罚及大小,根据分子对接中起主导作用进行调节。
进一步的,所述步骤2中,将所述第一药物分子和蛋白靶点的结合姿势信息中,对药物分子中的部分原子的对接打分函数添加偏置项。
进一步的,所述对药物分子中的部分原子对接打分函数添加偏置项具体为:对所述第一药物分子和蛋白靶点的结合姿势信息中药物分子的骨架上的原子的对接打分函数添加偏置项;或者对药物分子中的蛋白体系对特定类型相互作用有偏好的原子对接打分函数添加偏置项。
进一步的,所述步骤2中的所述偏置项根据专家经验数据转化形成;或者所述偏置项根据第二机器学习模型来预测处理生成。
进一步的,所述偏置项根据第二机器学习模型来预测处理生成具体为:根据所述第二机器学习模型,以独立的蛋白靶点结构信息,输出以要添加的偏置类型的所述分子结构信息的原子信息空间坐标R和特定类型T,得到通过所述第二机器学习模型预测的偏置项。
进一步的,所述步骤3具体为:蛋白靶点和药物分子对接过程中,当类型为T的原子或原子团出现在中心R的周围第一半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或减去偏置量L作为惩罚;利用分子对接算法,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息;其中,所述偏置项和打分函数的能量项是加权关系,分子对接过程中根据第二机器学习模型给出的偏置范围,和基于物理的能量项的药物分子和蛋白靶点相互作用,得到药物分子和蛋白靶点结合姿势预测信息。
本发明实施例提供的药物分子和蛋白靶点结合姿势预测处理方法,有效的实现了药物分子和蛋白靶点结合姿势预测的准确率。
附图说明
图1为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的流程图;
图2为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的示意图;
图3为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的比照示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
单独使用机器学习模型打分函数在蛋白靶点和药物分子对接中的应用,先由分子对接预测若干个结合姿势信息,然后使用机器学习打分函数对这些结合姿势重新进行能量评估和排序,然后把排序靠前的结合姿势作为最后的结合姿势。但这受限于分子对接所预测的结合姿势的丰富程度,如果这些结合姿势中本身不包含与真实结合姿势接近的结构,那么无论机器学习打分函数的评估能力多么准确,都无法得到良好的效果。基于Vina打分函数分子对接算法在CASF-2016数据集上为每个体系预测1000个结合姿态,只有75%的体系能预测出成功的结合姿态。
也可以利用机器学习模型直接预测蛋白-配体结合,输入单独的蛋白靶点和单独的药物分子,输出第一药物分子和蛋白靶点的结合姿势。例如Uni-Mol分子预训练模型,其在CASF-2016数据集上预测的结合姿态成功率能达到80%。
但机器学习模型预测的精确度较低,均方根距离小于1.0埃的体系要显著少于基于打分函数的分子对接方法,而且容易出现非物理的情况,如预测得到的药物分子与蛋白靶点有碰撞、药物分子存在不合理的键长键角等,同时这些机器学习没有对能量进行评估的能力。因此,限制了这种方法在实际场景中的应用。
本发明药物分子和蛋白靶点结合姿势预测处理方法,利用分子对接和机器学习模型的联合处理,用于蛋白靶点和药物分子结合姿势预测。具有如下特点:
第一,机器学习模型直接预测蛋白靶点与药物分子的结合姿势,其准确率高。
第二,能直接预测药物分子和蛋白靶点结合姿势的机器学习模型;其预测的结合姿势与真实晶体结构中结合姿势准确度高,本发明可以解决精细结构匹配较差的问题,两者的均方根距离小于1.0埃为精细结构匹配成功;解决了预测的结合姿势出现的非物理现象问题;而且由于其基于损失函数训练,解决了机器学习模型无法对不同分子的结合姿势进行打分排序问题。
图1为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的流程图,如图所示,本发明具体包括如下步骤:
步骤110、利用第一机器学习模型,输入独立的蛋白靶点结构信息和药物分子结构信息,得到和输出第一药物分子和蛋白靶点的结合姿势信息;
具体的可以利用如下第一机器学习模型实现。
第一种,利用卷积神经网络机器学习模型,把蛋白靶点结构信息和药物分子结构信息转化为蛋白分子密度图或蛋白分子点云;以药物分子密度图或药物分子点云作为条件,在蛋白分子密度图或蛋白分子点云的空腔中生成药物分子密度图,并将药物分子密度图解析还原成第一药物分子和蛋白靶点的结合姿势信息。
具体的,可以使用卷积神经网络(CNN),把蛋白靶点结构和药物分子结构先转化为分子密度图或分子点云,然后在蛋白的分子密度图或蛋白的分子点云上,以药物分子密度图或药物分子点云作为条件,在蛋白分子密度图或蛋白分子点云的空腔中生成药物分子密度图,并将药物分子密度图解析还原成药物分子的结合姿势。
第二种,利用图神经网络机器学习模型,构建蛋白靶点的原子或氨基酸残基与药物分子上的原子作为图的节点;在两两之间的节点之间构建一条边来表示它们间的相对距离;基于预测蛋白靶点与药物分子结合后的相对距离,并根据距离矩阵来还原成第一药物分子和蛋白靶点的结合姿势信息。
具体的,可以使用图神经网络(GNN),构建蛋白靶点的原子或氨基酸残基与药物分子上的原子作为图(Graph)的节点(node),两两之间构建一条边(edge)来表示它们间的相对距离,然后基于预测蛋白靶点与药物分子结合后的相对距离,并根据距离矩阵来还原药物分子的结合姿势。
第三种,利用坐标预测自注意力模型,输入蛋白靶点上原子的空间坐标信息和药物分子上原子的空间坐标信息,预测药物分子上每个原子相对于初始位置的改变,来计算得到第一药物分子和蛋白靶点的结合姿势信息。
具体的,可以用具有SE(3)等变性的坐标预测自注意力模型(Transformer),以蛋白靶点上原子的空间坐标和药物分子上原子的空间坐标为输入,预测药物分子上每个原子相对于初始位置的改变(即平动或者转动,例如旋转和平移),来计算得到药物分子的结合姿势。
另外,还可以使用动力学模型(Dynamics)来模拟药物分子中每个原子的移动、使用扩散模型(Diffusion Model)来演化药物分子的位置、使用自回归模型(AutoregressiveModel)来逐个预测药物分子中原子的位置等机器学习方法。
步骤102、利用第一药物分子和蛋白靶点的结合姿势信息,对药物分子对接打分函数添加偏置项,形成偏置项打分函数;
对分子对接打分函数添加偏置项具体为:以药物分子结构中的原子的空间坐标R为中心,指定在药物分子对接过程中,满足类型信息的原子出现在离这个中心第一半径r的范围内时,给能量项赋一个偏置L;其中,原子的空间坐标R来自于第一药物分子和蛋白靶点的结合姿势信息中的原子或某多原子组的原子团;类型信息T来自于该空间坐标对应的原子的元素类型、芳香性是否为环上的原子、是否为氢键给体、是否是氢键受体或对应的原子团的属性;第一半径r是类型信息T的函数;能量项的偏置L是空间坐标R、第一半径r和类型信息T的函数。偏置为能量项的奖励,或者能量项的惩罚,随着空间坐标R的第一半径r衰减(也可能不衰减)。
具体的,添加偏置项(bias)的通用逻辑为,以药物分子中的原子空间坐标R为中心,指定在分子对接过程中,满足特定类型T的原子出现在离这个中心一定半径r的范围内时,给能量项一个偏置L。
其中,空间坐标R来自于机器学习预测的药物分子结合姿势的某个原子或某几个原子构成的原子团;类型T来自于该空间坐标对应的原子的元素类型、芳香性或对应的原子团的属性,如这几个原子团构成了氢键给体、氢键受体、药效团等;半径r是类型T的函数,代表这个类型T在空间中的影响范围;能量项的偏置L是空间坐标R、半径r和类型T的函数,得到的结果可以是对能量的奖励,也可以是对能量的惩罚,它一般随着距离空间坐标R的半径r衰减,不同类型T对能量的影响不同。
以药物分子中的单原子为例,每个原子的坐标为中心R,根据该原子的类型T,确定一个独特的半径范围r,以及一个偏置量L。在分子对接过程中,当有一个类型为T的原子出现在中心R的周围半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或者减去偏置量L作为惩罚。
以药物分子中的多原子原子团为例,药物分子结合姿势中若干个原子,例如原子A、原子B和原子C,会构成一个特殊的组合,例如一种特定的药效团T,药效团是一类原子组合的统称,例如原子A、原子B和原子D也可以是该药效团的成员。以原子A、原子B和原子C的几何中心为坐标中心R,并确定一个独特的半径范围r。在分子对接过程中,当有一个药效团类型为T的原子组合的几何中心出现在中心R的周围半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或者减去偏置量L作为惩罚。
能量项的奖励及大小,或者能量项的惩罚及大小,根据分子对接中起主导作用进行调节。
具体的,偏置量的大小可以灵活定义,如果希望机器学习所预测的结构在分子对接中起主导作用,那么可以把偏置量带来的奖励或惩罚调大,反之可以调小,来实现灵活调控预测结果。
另外,步骤102中,将第一药物分子和蛋白靶点的结合姿势信息中,可以只对对药物分子中的部分原子的对接打分函数添加偏置项。也就是说,不一定要把第一机器学习模型预测的药物分子结合姿势的所有原子都作为偏置条件添加到打分函数中,通过部分偏置添加的方式,来实现对结果的灵活调控。
例如可以对第一药物分子和蛋白靶点的结合姿势信息中药物分子的骨架上的原子的对接打分函数添加偏置项;或者对药物分子中的蛋白体系对特定类型相互作用有偏好的原子对接打分函数添加偏置项。
具体的,在通过片段替换得到的分子库的搜索过程中,可以只以机器学习模型预测的药物分子的骨架上的原子作为偏置条件。或者在蛋白体系对某一类型相互作用有偏好时,例如蛋白靶点中具有显著的芳香区域、氢键给体、氢键受体时,可以只以机器学习模型预测的药物分子的对应部分作为偏置。
步骤103、根据偏置项打分函数,利用分子对接算法,输入独立的蛋白靶点结构信息和药物分子结构信息,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。
也就是,蛋白靶点和药物分子对接过程中,当类型为T的原子或原子团出现在中心R的周围第一半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或减去偏置量L作为惩罚;利用分子对接算法,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。
其中,偏置项和打分函数的能量项是加权关系,分子对接过程中根据第二机器学习模型给出的偏置范围,和基于物理的能量项的药物分子和蛋白靶点相互作用,得到药物分子和蛋白靶点结合姿势预测信息。
具体的,在分子对接过程中,当有一个类型为T的原子或原子团出现在中心R的周围半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或者减去偏置量L作为惩罚。分子对接过程中,药物分子的结合姿势是基于打分函数进行优化的,分子对接算法会倾向于将分子移动到打分函数分数更优的位置去。因此分子搜索在预测结合姿势的过程中,就倾向于把对应的原子移动或远离到刚才所对应的偏置区域中,来获得更好的能量打分。由于偏置项和打分函数本身的能量项是加权关系,因此分子对接过程中会既考虑机器学习模型给出的偏置范围,又能考虑基于物理的能量项所刻画的蛋白-分子相互作用,得到较为准确的蛋白靶点药物分子结合姿势的预测。
另外,可选的实施例中,步骤102中的偏置项根据专家经验数据转化形成;或者偏置项根据第二机器学习模型来预测处理生成。
偏置项根据专家经验数据转化形成的情况下,是一种使用第一机器学习模型预测药物分子的结合姿势信息,并根据专家经验将结合姿势转化为特定的偏置项的过程。
偏置项根据第二机器学习模型来预测处理生成的情况下,是根据第二机器学习模型,以独立的蛋白靶点结构信息,输出以要添加的偏置类型的分子结构信息的原子信息空间坐标R和特定类型T,得到通过第二机器学习模型预测的偏置项。
具体的,也可以直接通过机器学习来预测得到要添加的偏置项。由此处理过程优化为:
使用第二机器学习模型,以独立的蛋白靶点结构,以要添加的偏置类型空间坐标R、特定类型T作为输出,获得机器学习模型预测的偏置类型;将第二机器学习模型预测的偏置类型,对分子对接打分函数添加偏置项(bias)。
基于添加过偏置项的打分函数,分子对接算法以独立的蛋白靶点结构和药物分子结构作为输入,以药物分子和蛋白靶点的结合姿势为输出,获得最终的蛋白靶点药物分子结合姿势预测结果。
图2为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的示意图,如图所示,第一附图上侧的蛋白靶点和下侧的药物分子,通过第一机器学习模型后,生成第二附图所示的基于第一机器学习模型的第一药物分子和蛋白靶点的结合姿势示信息示意图;然后通过添加偏置项,生成第三幅图中的基于第二机器学习模型预测的结合姿势给打分函数添加偏置项的示意图;最后通过分子对接后,生成基于添加偏置项打分函数的分子对接预测的第二药物分子和蛋白靶点的结合姿势信息示意图。
本发明一种药物分子和蛋白靶点结合姿势预测处理方法将预测药物分子结合姿势的机器学习模型,以及给打分函数添加偏置项,并基于添加过偏置项的打分函数进行分子对接;通过分子对接得到若干分子结合姿势,然后通过机器学习模型进行重新打分和排序。所以本发明把机器学习模型预测的药物分子结合姿势转化为偏置项,来影响打分函数的能量评估,最后应用于分子对接来得到更好的分子结合姿势预测处理。
本发明一种药物分子和蛋白靶点结合姿势预测处理方法具有如下优点:
1、由于机器学习模型比打分函数具有更好的预测结合姿势的能力,基于机器学习模型预测结构来添加偏置项的打分函数能提高分子对接预测结合姿势的成功率;
2、由于分子对接算法是基于物理约束的算法,不会产生违背物理约束的结合姿势,因此能克服非物理结构的问题;
3、物理能量项的引入会使局部精细结构的预测更加精确,能克服机器学习模型预测的结合姿势在局部的精细结构预测不足的问题;
4、由于机器学习模型的预测结果是以偏置形式添加到分子对接的打分函数中的,因此分子对接过程的计算效率依然是打分函数的极高计算效率;
5、由于偏置量相当于对基于物理的能量项的修正,所以添加偏置项的打分函数依然具有能量的概念,因此打分依然能用于不同分子之间能量的比较和排序。
图3为本发明实施例一种药物分子和蛋白靶点结合姿势预测处理方法的比照示意图。如图所示,以CASF-2016数据集作为测试数据集,使用Uni-Mol自注意力模型作为预测结合姿势的机器学习模型,使用Uni-Dock作为分子对接软件,使用Vina作为打分函数,进行上述流程的测试。测试结果如下:
当仅使用Uni-Dock分子对接软件+Vina打分函数进行结合姿势预测的时候,预测成功率仅为67%,如图中虚线所示。
当仅使用Uni-Mol自注意力模型结合姿势预测的时候,预测成功率为80%,且在均方根误差小于1.0埃的精细结构预测中要明显比Uni-Dock分子对接软件预测的要差,如图中点划线所示。
当根据本发明的处理方法,使用Uni-Mol自注意力模型预测的结合姿势,并以机器学习模型预测的结合姿势的原子类型和位置作为偏置项添加到Vina打分函数里,然后使用Uni-Dock分子对接软件进行结合姿势预测的时候,预测成功率达到85%,如图中实线所示。且均方根误差小于1.0埃的精细结构预测有大幅提升,远高于Uni-Dock对接软件基于原始Vina打分函数预测的结果和Uni-Mol自注意力模型预测的结果。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种药物分子和蛋白靶点结合姿势预测处理方法,其特征在于,所述方法包括:
步骤1、利用第一机器学习模型,输入独立的蛋白靶点结构信息和药物分子结构信息,得到和输出第一药物分子和蛋白靶点的结合姿势信息;
步骤2、利用所述第一药物分子和蛋白靶点的结合姿势信息,对药物分子对接打分函数添加偏置项,形成偏置项打分函数;
步骤3、根据所述偏置项打分函数,利用分子对接算法,输入独立的蛋白靶点结构信息和药物分子结构信息,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。
2.根据权利要求1所述的,其特征在于,所述步骤1具体为:
利用卷积神经网络机器学习模型,把蛋白靶点结构信息和药物分子结构信息转化为蛋白分子密度图或蛋白分子点云;以药物分子密度图或药物分子点云作为条件,在所述蛋白分子密度图或蛋白分子点云的空腔中生成药物分子密度图,并将所述药物分子密度图解析还原成第一药物分子和蛋白靶点的结合姿势信息;或者
利用图神经网络机器学习模型,构建蛋白靶点的原子或氨基酸残基与药物分子上的原子作为图的节点;在两两之间的节点之间构建一条边来表示它们间的相对距离;基于预测蛋白靶点与药物分子结合后的相对距离,并根据距离矩阵来还原成第一药物分子和蛋白靶点的结合姿势信息;或者
利用坐标预测自注意力模型,输入蛋白靶点上原子的空间坐标信息和药物分子上原子的空间坐标信息,预测药物分子上每个原子相对于初始位置的改变,来计算得到第一药物分子和蛋白靶点的结合姿势信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中对分子对接打分函数添加偏置项具体为:
以药物分子结构中的原子的空间坐标为中心,指定在药物分子对接过程中,满足类型信息的原子出现在离这个中心第一半径的范围内时,给能量项赋一个偏置;
其中,所述原子的空间坐标来自于所述第一药物分子和蛋白靶点的结合姿势信息中的原子或多原子组成的原子团;类型信息来自于该空间坐标对应的原子的元素类型、芳香性、是否为环上的原子、是否为氢键给体、是否是氢键受体或对应的原子团的属性;第一半径是类型信息的函数;能量项的偏置是空间坐标、第一半径和类型信息的函数。
4.根据权利要求3所述的方法,其特征在于,所述偏置为能量项的奖励,或者能量项的惩罚,随着空间坐标的第一半径衰减。
5.根据权利要求4所述的方法,其特征在于,所述能量项的奖励及小小,或者能量项的惩罚及大小,根据分子对接中起主导作用进行调节。
6.根据权利要求4所述的方法,其特征在于,所述步骤2中,将所述第一药物分子和蛋白靶点的结合姿势信息中,对药物分子中的部分原子给对接打分函数添加偏置项。
7.根据权利要求6所述的方法,其特征在于,所述对药物分子中的部分原子给对接打分函数添加偏置项具体为:
对所述第一药物分子和蛋白靶点的结合姿势信息中药物分子的骨架上的原子的对接打分函数添加偏置项;或者
对药物分子中的蛋白体系对特定类型相互作用有偏好的原子对接打分函数添加偏置项。
8.根据权利要求4所述的方法,其特征在于,所述步骤2中的所述偏置项根据专家经验数据转化形成;或者所述偏置项根据第二机器学习模型来预测处理生成。
9.根据权利要求8所述的方法,其特征在于,所述偏置项根据第二机器学习模型来预测处理生成具体为:根据所述第二机器学习模型,以独立的蛋白靶点结构信息,输出以要添加的偏置类型的所述分子结构信息的原子信息空间坐标R和特定类型T,得到通过所述第二机器学习模型预测的偏置项。
10.根据权利要求9所述的方法,其特征在于,所述步骤3具体为:
蛋白靶点和药物分子对接过程中,当类型为T的原子或原子团出现在中心R的周围第一半径r范围的球形空间内时,就给打分函数对应的能量项加上偏置量L作为奖励,或减去偏置量L作为惩罚;利用分子对接算法,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息;
其中,所述偏置项和打分函数的能量项是加权关系,分子对接过程中根据第二机器学习模型给出的偏置范围,和基于物理的能量项的药物分子和蛋白靶点相互作用,得到药物分子和蛋白靶点结合姿势预测信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281707.5A CN115527607A (zh) | 2022-10-19 | 2022-10-19 | 一种药物分子和蛋白靶点结合姿势预测处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281707.5A CN115527607A (zh) | 2022-10-19 | 2022-10-19 | 一种药物分子和蛋白靶点结合姿势预测处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527607A true CN115527607A (zh) | 2022-12-27 |
Family
ID=84704526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211281707.5A Pending CN115527607A (zh) | 2022-10-19 | 2022-10-19 | 一种药物分子和蛋白靶点结合姿势预测处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527607A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597892A (zh) * | 2023-05-15 | 2023-08-15 | 之江实验室 | 一种模型训练的方法以及分子结构信息的推荐方法及装置 |
CN117174164A (zh) * | 2023-10-30 | 2023-12-05 | 晨伫(杭州)生物科技有限责任公司 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
-
2022
- 2022-10-19 CN CN202211281707.5A patent/CN115527607A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597892A (zh) * | 2023-05-15 | 2023-08-15 | 之江实验室 | 一种模型训练的方法以及分子结构信息的推荐方法及装置 |
CN116597892B (zh) * | 2023-05-15 | 2024-03-19 | 之江实验室 | 一种模型训练的方法以及分子结构信息的推荐方法及装置 |
CN117174164A (zh) * | 2023-10-30 | 2023-12-05 | 晨伫(杭州)生物科技有限责任公司 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
CN117174164B (zh) * | 2023-10-30 | 2024-02-13 | 晨伫(杭州)生物科技有限责任公司 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115527607A (zh) | 一种药物分子和蛋白靶点结合姿势预测处理方法 | |
Chen et al. | MMDetection: Open mmlab detection toolbox and benchmark | |
Gao et al. | Long short-term memory-based deep recurrent neural networks for target tracking | |
US10599788B2 (en) | Predicting target characteristic data | |
JP2014502393A (ja) | 判定方法及び判定装置 | |
Toma et al. | Pathbench: A benchmarking platform for classical and learned path planning algorithms | |
CN114139637A (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
KR20220010327A (ko) | 3d-컨벌루션 뉴럴 네트워크의 앙상블을 이용한 단백질-리간드 결합 친화도 예측 방법 및 이를 위한 시스템 | |
Summers et al. | Lyceum: An efficient and scalable ecosystem for robot learning | |
Sun et al. | Integrating an ensemble surrogate model’s estimation into test data generation | |
CN117236278A (zh) | 一种基于数字孪生技术的芯片生产仿真方法及系统 | |
US11308422B2 (en) | Method of and system for determining physical transfer interchange nodes | |
Cardelli et al. | A process model of actin polymerisation | |
CN101894063A (zh) | 一种用于微处理器功能验证的测试程序生成方法及装置 | |
Gal et al. | Using deep neural networks and derivative free optimization to accelerate coverage closure | |
CN110210072B (zh) | 基于近似模型及差分进化算法求解高维优化问题的方法 | |
CN112149269A (zh) | 优化设备、优化设备的控制方法和记录介质 | |
CN114819107B (zh) | 基于深度学习的混合数据同化方法 | |
Kang et al. | Ecsas: Exploring critical scenarios from action sequence in autonomous driving | |
US20220351808A1 (en) | Systems and methods for reinforcement learning molecular modeling | |
CN114373509A (zh) | 一种基于GPU加速AutoDock Vina的方法 | |
Boisson et al. | Parallel multi-objective algorithms for the molecular docking problem | |
CN113919510A (zh) | 一种样本特征选择方法、装置、设备及介质 | |
CN111402964A (zh) | 一种基于混合烟花算法的分子构象搜索方法 | |
Xing et al. | Utilizing bee foraging behavior in mutational salp swarm for feature selection: a study on return-intentions of overseas Chinese after COVID-19 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |