CN115762662A - 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台 - Google Patents

基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台 Download PDF

Info

Publication number
CN115762662A
CN115762662A CN202211513416.4A CN202211513416A CN115762662A CN 115762662 A CN115762662 A CN 115762662A CN 202211513416 A CN202211513416 A CN 202211513416A CN 115762662 A CN115762662 A CN 115762662A
Authority
CN
China
Prior art keywords
drug
target protein
neural network
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211513416.4A
Other languages
English (en)
Inventor
司马鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chuangteng Software Co ltd
Original Assignee
Suzhou Chuangteng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chuangteng Software Co ltd filed Critical Suzhou Chuangteng Software Co ltd
Priority to CN202211513416.4A priority Critical patent/CN115762662A/zh
Publication of CN115762662A publication Critical patent/CN115762662A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明实施例公开了一种基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台,所述方法包括:获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白‑药物符合的程序数据库文件的数据结构;其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。解决了现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。

Description

基于图神经网络的特定靶标药物生成方法、装置和MaxFlow 平台
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台。
背景技术
传统的药物生成方法通过筛选可在公共或商业分子库中获得的化合物或者通过使用片段和药效团模型从头产生分子来识别对目标靶蛋白具有特异性的分子。研发人员已经开发了各种方法来满足不同的需求,如基于性质、基于靶点、基于药效团和基于骨架的分子生成方法。但是,使用传统方法受制于规模巨大且复杂的化学空间,而且对专家知识的需求较高,深度学习方法完全以数据驱动的方式训练,在一定程度上大大缩减药物研发时间和成本,设计出具有所需类药物特性的新化学实体。
然而,与传统方法直接在结合口袋的三维结构内部构建三维配体不同,大多数基于深度学习的方法只生成一维Smiles或二维Graph分子表示,没有使用目标的结构和相互作用信息。因此,这些方法大多依赖于基于配体的目标,这可能会受到与训练集中的配体相关的偏差的影响。由于现有模型对现有生物活性信息的依赖程度较高,也使得模型难以应用于生物活性数据有限的病例,比如特定靶标设计药物时面临数据匮乏的问题。
总的来讲,现有技术集中于新分子的从头设计,然后通过深度学习框架进行化学合成和活性评估。这导致了以下两个主要问题:其一,已有模型只关注于算法的开发,没有明确建模小分子结构和三维口袋之间的相互作用,不是针对特定靶点的全新药物设计;其二,特定靶标设计药物时会面临数据匮乏的问题,由于基础数据较少,导致模型训练的准确性较差。
发明内容
为此,本发明实施例提供一种基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台,以至少部分解决现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明提供一种基于图神经网络的特定靶标药物生成方法,所述方法包括:
获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
在一些实施例中,获取靶蛋白数据和预成药物分子数,之后还包括:
对靶蛋白进行非标准残基处理,以去除所述靶蛋白中的水分子、离子、糖类、辅酶和药物分子。
在一些实施例中,所述方法还包括:
将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构,之后还包括:
获取所述受体分子生成模型输出的药物的Smiles序列;
将所述Smiles序列和预先设定的优化指标输入预先训练的配体分子生成模型,以生成评估结果;
对所述评估结果分维度进行排序,以得到药物筛选结果。
在一些实施例中,所述配体分子生成模型的深度学习网络是通过迭代的图生成过程设计的,并基于策略梯度来优化特定领域的奖励和竞争性损失来训练的。
在一些实施例中,所述受体分子生成模型的模型结构包括:
编码器、前沿预测器、位置预测器和元素类型-键预测器。
在一些实施例中,基于所述模型结构的训练过程,具体包括:
随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子;
对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子,与掩蔽原子具有价键的其他分子原子就被定义为前沿,再根据上述生成过程,训练出成熟的前沿预测器、位置预测器和元素类型-键预测器;
其中,前沿预测的损失Lfro是预测前沿的二元交叉熵损失,位置预测器Lpos的损失是掩蔽原子位置的负对数可能性,对于元素类型和键型预测,使用交叉熵损失进行分类,分别表示为Lele和Lbond,总损失函数是四个损失函数的总和:
L=Lfro+Lpos+Lele+Lbond
并采用Adam优化器算法去优化各所述预测器。
本发明还提供一种基于图神经网络的特定靶标药物生成装置,所述装置包括:
数据获取单元,用于获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
结构生成单元,用于将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
药物合并单元,用于将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
本发明还提供一种MaxFlow平台,包括:
受体分子生成组件,所述受体分子生成组件是通过由图神经网络组成的等变生成网络框架构建的,所述受体分子生成组件的输入文件是特定靶标蛋白程序数据库文件的数据结构文件,所述受体分子生成组件的输出文件是靶蛋白-药物复合物的程序数据库文件的数据结构和药物的Smiles序列;
配体分子生成组件,所述配体分子生成组件是采用结合强化学习的图生成网络GCPN构建的,所述配体分子生成组件是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明所提供的基于图神经网络的特定靶标药物生成方法,通过获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。通过该方法能够生成特定靶标蛋白高亲和力的新候选药物三维结构;基于上述新候选药物通过分子性质优化来生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,供药物筛选使用。从而解决了现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。
本发明所提供的MaxFlow平台,包括受体分子生成组件和配体分子生成组件,所述受体分子生成组件是通过由图神经网络组成的等变生成网络框架构建的,所述受体分子生成组件的输入文件是特定靶标蛋白程序数据库文件的数据结构文件,所述受体分子生成组件的输出文件是靶蛋白-药物复合物的程序数据库文件的数据结构和药物的Smiles序列;所述配体分子生成组件是采用结合强化学习的图生成网络GCPN构建的,所述配体分子生成组件是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的。该平台以组件工作流的方式实现了特定靶点的药物设计,不仅提供蛋白大分子,药物小分子的一维或三维结构的输入、可视化、分子预处理,还嵌入了先进的药物设计深度学习模型,在这些模型组件中可以可视化添加盒子,指定分子优化标准,以及生成分子的数目,极大地简化了药物研发的繁杂流程并降低了研究者对AIDD的学习成本,本发明所提供的平台不仅能生成靶点高亲和力的三维药物分子,还可以大量生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,为后续的药物筛选提供助力。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明所提供的基于图神经网络的特定靶标药物生成方法一种具体实施方式的流程图之一;
图2为盒子自动定义界面图;
图3为本发明所提供的基于图神经网络的特定靶标药物生成方法一种具体实施方式的流程图之二;
图4为本发明所提供的基于pocket生成分子过程图;
图5为本发明所提供的一个使用场景中的分子图迭代生成过程图;
图6为本发明所提供一个使用场景中的基于受体分子生成工作流框图;
图7为本发明所提供的一个使用场景中的4YHJ初始结构图;
图8为本发明所提供的一个使用场景中的4YHJ预处理后结构图;
图9为本发明所提供的一个使用场景中的基于受体分子生成的配体分子三维结构结合pocket展示图;
图10为本发明所提供的另一个使用场景中的基于配体分子生成工作流框图;
图11为本发明所提供的另一个使用场景中的输入配体结构图;
图12为本发明所提供的基于图神经网络的特定靶标药物生成装置一种具体实施方式的结构示意图;
图13为本发明所提供的电子设备的实体结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决的特定靶标设计药物时面临数据匮乏的问题,基于结构的信息为优化配体与靶点之间的相互作用提供了直接指导,降低了对现有生物活性信息的依赖,因此,将三维条件纳入深层分子生成模型是非常可取的。据此,本发明采用一个由图神经网络组成的E(3)等变生成网络框架Pocket2Mol来实现靶蛋白口袋的三维药物分子生成,它不仅可以捕获结合口袋原子之间的空间和键合关系,还可以在不依赖马尔科夫链蒙特卡洛方法(MCMC)的情况下更快速地以口袋表示为条件对新候选药物进行采样,生成高亲和力的而且包含准确的结构。除此之外,为了进一步解决特定靶标设计药物时面临数据匮乏的问题,将上述靶蛋白口袋中生成的分子做更大规模的分子优化生成,本发明将采用一个基于图神经网络结合强化学习模型GCPN,利用优化打分函数以产生预计可与特定靶标蛋白更好结合并具有所需药物特性的小分子。
请参考图1,图1为本发明所提供的基于图神经网络的特定靶标药物生成方法一种具体实施方式的流程图之一。
在一种具体实施方式中,本发明提供的基于图神经网络的特定靶标药物生成方法包括以下步骤:
S101:获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
S102:将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
S103:将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
总的来讲,本发明通过MaxFlow平台基于受体分子生成组件和基于配体分子生成组件,通过工作流技术,可实现两个关于特定靶标设计药物的功能:1.特定靶标蛋白高亲和力的新候选药物结构的生成,2.基于上述新候选药物通过分子性质优化来生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库。
在一些实施例中,获取靶蛋白数据和预成药物分子数,之后还包括:
对靶蛋白进行非标准残基处理,以去除所述靶蛋白中的水分子、离子、糖类、辅酶和药物分子。
在一个具体使用场景中,MaxFlow平台基于受体分子生成组件是采用了由图神经网络组成的E(3)等变生成网络框架Pocket2Mol来开发的,输入文件是特定靶标蛋白PBD结构文件,接入分子生成组件之前,需要对大分子进行非标准残基预处理,本发明可用MaxFlow平台的大分子预处理组件来实现,然后需要定义靶蛋白Pocket的位置和大小,本发明基于受体分子生成组件提供两种方式:1.手动输入Pocket中心坐标(x,y,z)及区域边长大小;2.自动定义搜索区域,选中原来配体分子,或者Pocket周边残基,即可框中盒子,并将中心坐标(x,y,z)及区域边长大小传入后台,如图2所示。
传入靶蛋白和盒子信息以及预成药物分子数,就可以利用由图神经网络组成的E(3)等变生成网络框架Pocket2Mol训练好的模型直接推理出高亲和力的新候选药物三维结构,本发明使用分子建模工具OpenBabel将大分子处理后的靶蛋白及新候选药物三维结构进行合并,因为药物三维结构包含盒子坐标信息,最终输出靶蛋白-药物复合物的程序数据库文件的数据结构,后面可结合分子动力学组件进行分子模拟验证。
在得到候选药物的三维结构之后,为了实现分子筛选,如图3所示,将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构,之后还包括以下步骤:
S301:获取所述受体分子生成模型输出的药物的Smiles序列;
S302:将所述Smiles序列和预先设定的优化指标输入预先训练的配体分子生成模型,已生成评估结果;
S303:对所述评估结果分维度进行排序,以得到药物筛选结果。
具体地,基于受体分子生成组件输出的还有对应药物的Smiles序列,本发明利用MaxFlow平台药靶亲和力组件可筛选出高亲和力的配体,之后利用MaxFlow平台基于配体的分子生成组件可以生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,配体分子生成模型是基于图神经网络结合强化学习GCPN模型来开发的,输入的是上述筛选的配体Smiles序列,需要选择强化学习优化指标(QED或者plogP),然后根据GCPN训练好的模型来生成指定数目的分子,输出的是新候选药物Smiles及对应的类药性,合成性,logP,plogP等评估打分,可根据任一指标进行排序和筛选,该组件生成分子的效率远高于基于受体分子生成组件,因此可以用来扩展现有特定靶标设计的化学药物库,后面可以接MaxFlow平台的ADMET组件进行药物筛选。
其中,所述配体分子生成模型的深度学习网络是通过迭代的图生成过程设计的,并基于策略梯度来优化特定领域的奖励和竞争性损失来训练的。
生物医药领域绝大部分的数据是图结构数据,包括分子结构数据、蛋白质结构数据、知识图谱等,图神经网络(GNN)在该领域有巨大的应用价值。本发明MaxFlow平台基于受体分子生成组件就是采用了由图神经网络组成的E(3)等变生成网络框架Pocket2Mol来开发的。一般图表示学习应用到药物分子研发中是二维图表,原子映射为图节点特征,化学键映射为边特征,而有研究人员发现同时具有标量和向量特征的三维图中的节点和边的表示可以帮助提高神经网络的表达能力,所以Pocket2Mol中蛋白质口袋和分子片段中的所有节点和边表示都与标量(.)和向量(→)特征相关联,以更好地捕捉三维几何信息。Pocket2Mol是采用几何向量感知器和基于向量的神经网络来实现E(3)等变的:1.几何向量感知器(GVP)扩展了标准的全连接层(dense layers),可以在标量特征和向量特征之间传播信息;2.向量神经网络将一组普通神经运算(例如线性层、激活函数)扩展到向量特征空间。基于上述神经网络框架,对于药物分子的每个原子,如图4所示,产生过程包括四个主要步骤:1.预测当前分子片段的前沿原子,Froniters被定义为可以共价连接到新原子的分子原子,如果所有的原子都不是前沿,则表明当前分子是完整的,生成过程终止;2.该模型从前沿里抽样一个原子设置为焦点原子;3.基于焦点原子,模型的位置预测器预测新原子的相对位置;4.模型的原子元素-化学键预测器将预测下一个元素类型和键类型的概率,然后采样新原子的元素类型和价键。通过这种方式,新原子被成功地添加到当前的分子片段中,生成过程继续下去,直到找不到Froniters原子。需要指出的是,这种生成过程对于第一个原子是不同的,因为还没有分子原子可以选择作为前沿,对于第一个原子,蛋白质口袋中的所有原子都被用来预测前沿,这里的前沿定义为在4埃内可以产生新原子的原子。
进一步地,所述受体分子生成模型的模型结构包括:
编码器、前沿预测器、位置预测器和元素类型-键预测器。利用这些模块就即可进行后续训练。其中,数据集可以采用CrossDocked数据集,该数据集包含2250万个蛋白质-分子结构。
其中,基于所述受体分子生成模型的训练过程,具体包括以下步骤:
随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子;
对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子,与掩蔽原子具有价键的其他分子原子就被定义为前沿,再根据上述生成过程,训练出成熟的前沿预测器、位置预测器和元素类型-键预测器;
其中,前沿预测的损失Lfro是预测前沿的二元交叉熵损失,位置预测器Lpos的损失是掩蔽原子位置的负对数可能性,对于元素类型和键型预测,使用交叉熵损失进行分类,分别表示为Lele和Lbond,总损失函数是四个损失函数的总和:
L=Lfro+Lpos+Lele+Lbond
并采用Adam优化器算法去优化各所述预测器。
具体地,在训练阶段,随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子。对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子,与掩蔽原子具有价键的其他分子原子就被定义为前沿,再根据上述生成过程,训练出成熟的前沿预测器、位置预测器和元素类型-键预测器。其中前沿预测的损失Lfro是预测前沿的二元交叉熵损失。位置预测器Lpos的损失是掩蔽原子位置的负对数可能性。对于元素类型和键型预测,使用交叉熵损失进行分类,分别表示为Lele和Lbond。总损失函数是上述四个损失函数的总和。训练完成后得到了理想的基于特定靶点Pocket的分子生成模型,嵌入了本发明基于受体的分子生成组件。
本发明所提供的MaxFlow平台基于配体分子生成组件是采用结合强化学习的图生成网络GCPN来设计的,模型是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的,并在包含特定领域规则的环境中发挥作用。该网络是根据一个迭代的图生成过程来设计的,并将它表述为一个通用决策过程,如图5所示,该决策过程包括:一个包含所有中间和结果图的状态的集合——描述每个时间步可能的修改行为的集合——执行某个操作的可能结果的转换动态——到达某状态后指定奖励的奖励函数。本发明使用ZINC250k数据集进行预训练,该数据集包含25万个类药物分子,最大原子数为38,它有9种原子类型和3种边类型。将药物分子数据转换成图数据后,分别以类药性QED,plogP为激励函数,按照上述迭代的图生成过程进行训练,得到两个成熟的基于配体优化的分子生成模型,嵌入了本发明基于配体的分子生成组件。
本发明所提供的MaxFlow平台以组件和工作流的方式实现了特定靶点的药物设计,不仅提供蛋白大分子,药物小分子的一维或三维结构的输入,可视化,分子预处理,还嵌入了先进的药物设计深度学习模型,在这些模型组件中可以可视化添加盒子,指定分子优化标准,以及生成分子的数目,极大地简化了药物研发的繁杂流程并降低了研究者对AIDD的学习成本,本发明不仅能生成靶点高亲和力的三维药物分子,还可以大量生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,为药物筛选提供助力。
本发明提供的方案借助MaxFlow平台设计了基于特定靶点的分子生成和基于配体的分子优化生成的深度学习模型组件,通过搭建工作流的方式可实现:1.生成特定靶标蛋白高亲和力的新候选药物三维结构;2.基于上述新候选药物通过分子性质优化来生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,供药物筛选使用。
为了便于理解,下面以两个具体使用场景为例,简述本发明所提供的方案和技术效果。
在一个使用场景中,本发明以G蛋白偶联受体激酶4(GRK4)的高血压变异型A486V结构4YHJ为例,可根据该结构原有配体AN2来定义盒子,生成新候选药物三维结构。其中,MaxFlow工作流搭建如图6所示:
首先,从PDB蛋白质结构数据库下载4YHJ结构,从pymol可查看初始结构,通过平台的“读取结构文件”组件载入该结构也可以进行预览,如图7所示;
第二步,通过平台中的“大分子预处理”组件对非标准残基进行处理,包括去除非标准残基,去除水分子,去除离子,去除糖类,去除辅酶,去除药物分子等,处理后的蛋白如图8所示。
第三步,通过平台中的“基于受体分子生成”组件的定义搜索区域工具定义盒子,选择前面组件载入的初始结构,选中AN2配体即可显示一个框住配体的盒子,其位置坐标及盒子边长都会渲染在相应的参数位置上,当然我们知道这些参数值也可以手动填写,为了框选住盒子中的特定残基,本发明也可以根据周边残基来定义盒子;最后一个参数是分子生成数。根据第二步预处理后提供的4YHJ蛋白结构以及这里定义好的盒子和分子生成数就可以运行MaxFlow工作流,基于受体分子生成组件会推理出配体sdf结构和Smiles表达式,本发明将配体与预处理后提供的4YHJ蛋白结构进行了合并,同Smiles表达式对应后一起输出。MaxFlow工作流运行结束后,右击查看组件报告,其生成的部分结果如图9所示:
在另一个使用场景中,本发明以上述使用场景中输出的Smiles表达式为C1=CN=C(c2ncccn2)C=1配体为例,利用基于配体的分子生成组件优化生成10000个小分子,并根据QED,SA等指标进行排序打分,扩展实施例一中特定靶标设计的化学药物库。本发明MaxFlow工作流搭建如图10所示。
首先,将配体Smiles表达式C1=CN=C(c2ncccn2)C=1以表格文件的格式保存,并用本发明MaxFlow“读取数据文件”组件读入,列名可以任取,这里我们以“Smiles”为列名;然后在“获取结构数据名称”组件的参数位置填入列名,作用是读入表中配体分子Smiles表达式并可视化,如图11所示。
最后在“基于配体分子生成组件”选取优化、排序指标并填入生成分子数:优化指标可选择QED(类药性),plogP;排序指标可选择QED(类药性),plogP,SA,logP;生成分子数为整数即可。本发明的优化指标和排序指标都选择QED(类药性),生成分子数为10000。参数输入后就可以运行MaxFlow工作流,待运行结束右击查看组件报告。这里生成的分子是按QED(类药性)来排序的,可以筛选打分较高的分子;同样可以选取实施例一其他高亲和力的配体分子作为本实施例的输入,重复上述工作流及筛选步骤,从而扩展特定靶标设计的化学药物库,为药物筛选提供助力。
实验证明,本发明基于受体分子生成模型生成的分子不仅具有更好的亲和力和化学性质,而且含有更真实和准确的结构,如表1所示。
表1基于靶点的分子生成模型评估表
Figure 760571DEST_PATH_IMAGE001
实验结果表明,在与已知分子相似的情况下,本发明基于配体分子生成模型GCPN在化学性能优化方面比最优基线提高61%,在约束性能优化方面提高184%。GCPN在分子特性优化和靶向任务中始终优于其他最新方法,同时保持了100%的有效性和与实际分子的相似性,如表2所示。
表2基于配体的分子生成模型评估表
Figure 553077DEST_PATH_IMAGE002
在上述具体实施方式中,本发明所提供的基于图神经网络的特定靶标药物生成方法,通过获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。通过该方法能够生成特定靶标蛋白高亲和力的新候选药物三维结构;基于上述新候选药物通过分子性质优化来生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,供药物筛选使用。从而解决了现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。
除了上述方法,本发明还提供一种基于图神经网络的特定靶标药物生成装置,如图12所示,所述装置包括:
数据获取单元1201,用于获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
结构生成单元1202,用于将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
药物合并单元1203,用于将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
在一些实施例中,获取靶蛋白数据和预成药物分子数,之后还包括:
对靶蛋白进行非标准残基处理,以去除所述靶蛋白中的水分子、离子、糖类、辅酶和药物分子。
在一些实施例中,所述方法还包括:
将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构,之后还包括:
获取所述受体分子生成模型输出的药物的Smiles序列;
将所述Smiles序列和预先设定的优化指标输入预先训练的配体分子生成模型,以生成评估结果;
对所述评估结果分维度进行排序,以得到药物筛选结果。
在一些实施例中,所述配体分子生成模型的深度学习网络是通过迭代的图生成过程设计的,并基于策略梯度来优化特定领域的奖励和竞争性损失来训练的。
在一些实施例中,所述受体分子生成模型的模型结构包括:
编码器、前沿预测器、位置预测器和元素类型-键预测器。
在一些实施例中,基于所述模型结构的训练过程,具体包括:
随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子;
对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子,与掩蔽原子具有价键的其他分子原子就被定义为前沿,再根据上述生成过程,训练出成熟的前沿预测器、位置预测器和元素类型-键预测器;
其中,前沿预测的损失Lfro是预测前沿的二元交叉熵损失,位置预测器Lpos的损失是掩蔽原子位置的负对数可能性,对于元素类型和键型预测,使用交叉熵损失进行分类,分别表示为Lele和Lbond,总损失函数是四个损失函数的总和:
L=Lfro+Lpos+Lele+Lbond
并采用Adam优化器算法去优化各所述预测器。
在上述具体实施方式中,本发明所提供的基于图神经网络的特定靶标药物生成装置,通过获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。通过该方法能够生成特定靶标蛋白高亲和力的新候选药物三维结构;基于上述新候选药物通过分子性质优化来生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,供药物筛选使用。从而解决了现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。
本发明还提供一种MaxFlow平台,包括:
受体分子生成组件,所述受体分子生成组件是通过由图神经网络组成的等变生成网络框架构建的,所述受体分子生成组件的输入文件是特定靶标蛋白程序数据库文件的数据结构文件,所述受体分子生成组件的输出文件是靶蛋白-药物复合物的程序数据库文件的数据结构和药物的Smiles序列;
配体分子生成组件,所述配体分子生成组件是采用结合强化学习的图生成网络GCPN构建的,所述配体分子生成组件是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的。
本发明所提供的MaxFlow平台,包括受体分子生成组件和配体分子生成组件,所述受体分子生成组件是通过由图神经网络组成的等变生成网络框架构建的,所述受体分子生成组件的输入文件是特定靶标蛋白程序数据库文件的数据结构文件,所述受体分子生成组件的输出文件是靶蛋白-药物复合物的程序数据库文件的数据结构和药物的Smiles序列;所述配体分子生成组件是采用结合强化学习的图生成网络GCPN构建的,所述配体分子生成组件是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的。该平台以组件工作流的方式实现了特定靶点的药物设计,不仅提供蛋白大分子,药物小分子的一维或三维结构的输入,可视化,分子预处理,还嵌入了先进的药物设计深度学习模型,在这些模型组件中可以可视化添加盒子,指定分子优化标准,以及生成分子的数目,极大地简化了药物研发的繁杂流程并降低了研究者对AIDD的学习成本,本发明所提供的平台不仅能生成靶点高亲和力的三维药物分子,还可以大量生成具有高有效性、新颖性和合成性的分子,扩展现有特定靶标设计的化学药物库,为后续的药物筛选提供助力。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行上述方法。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的电子设备中的处理器1310可以调用存储器1330中的逻辑指令,其实施方式与本申请提供的基于图神经网络的特定靶标药物生成方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (9)

1.一种基于图神经网络的特定靶标药物生成方法,其特征在于,所述方法包括:
获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
2.根据权利要求1所述的基于图神经网络的特定靶标药物生成方法,其特征在于,获取靶蛋白数据和预成药物分子数,之后还包括:
对靶蛋白进行非标准残基处理,以去除所述靶蛋白中的水分子、离子、糖类、辅酶和药物分子。
3.根据权利要求1所述的基于图神经网络的特定靶标药物生成方法,其特征在于,所述方法还包括:
将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构,之后还包括:
获取所述受体分子生成模型输出的药物的Smiles序列;
将所述Smiles序列和预先设定的优化指标输入预先训练的配体分子生成模型,以生成评估结果;
对所述评估结果分维度进行排序,以得到药物筛选结果。
4.根据权利要求3所述的基于图神经网络的特定靶标药物生成方法,其特征在于,所述配体分子生成模型的深度学习网络是通过迭代的图生成过程设计的,并基于策略梯度来优化特定领域的奖励和竞争性损失来训练的。
5.根据权利要求3所述的基于图神经网络的特定靶标药物生成方法,其特征在于,所述受体分子生成模型的模型结构包括:
编码器、前沿预测器、位置预测器和元素类型-键预测器;
其中,所述前沿预测器用于预测当前分子片段的前沿原子;所述位置预测器用于从前沿原子里抽样一个原子设置为焦点原子,并基于焦点原子预测新原子的相对位置;所述元素类型-键预测器用于预测下一个元素类型和键类型的概率,并采样新原子的元素类型和价键。
6.根据权利要求5所述的基于图神经网络的特定靶标药物生成方法,其特征在于,基于所述受体分子生成模型的训练过程,具体包括:
随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子;
对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子,与掩蔽原子具有价键的其他分子原子就被定义为前沿,再根据上述生成过程,训练出成熟的前沿预测器、位置预测器和元素类型-键预测器;
其中,前沿预测的损失Lfro是预测前沿的二元交叉熵损失,位置预测器Lpos的损失是掩蔽原子位置的负对数可能性,元素类型预测是使用交叉熵损失Lele,键类型预测是使用交叉熵损失Lbond来进行分类的,总损失函数是四个损失函数的总和:
L=Lfro+Lpos+Lele+Lbond,并采用Adam优化器算法去优化各所述预测器。
7.一种基于图神经网络的特定靶标药物生成装置,其特征在于,所述装置包括:
数据获取单元,用于获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;
结构生成单元,用于将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;
药物合并单元,用于将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;
其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。
8.一种MaxFlow平台,其特征在于,包括:
受体分子生成组件,所述受体分子生成组件是通过由图神经网络组成的等变生成网络框架构建的,所述受体分子生成组件的输入文件是特定靶标蛋白程序数据库文件的数据结构文件,所述受体分子生成组件的输出文件是靶蛋白-药物复合物的程序数据库文件的数据结构和药物的Smiles序列;
配体分子生成组件,所述配体分子生成组件是采用结合强化学习的图生成网络GCPN构建的,所述配体分子生成组件是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。
CN202211513416.4A 2022-11-30 2022-11-30 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台 Pending CN115762662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211513416.4A CN115762662A (zh) 2022-11-30 2022-11-30 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211513416.4A CN115762662A (zh) 2022-11-30 2022-11-30 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台

Publications (1)

Publication Number Publication Date
CN115762662A true CN115762662A (zh) 2023-03-07

Family

ID=85340516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211513416.4A Pending CN115762662A (zh) 2022-11-30 2022-11-30 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台

Country Status (1)

Country Link
CN (1) CN115762662A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597892A (zh) * 2023-05-15 2023-08-15 之江实验室 一种模型训练的方法以及分子结构信息的推荐方法及装置
CN116994671A (zh) * 2023-09-25 2023-11-03 之江实验室 一种基于点云数据快速筛选小分子药物的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066525A (zh) * 2021-03-30 2021-07-02 中山大学 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN113096723A (zh) * 2021-03-24 2021-07-09 北京晶派科技有限公司 小分子药物筛选通用分子库构建平台
CN113179631A (zh) * 2019-11-25 2021-07-27 中国科学院理化技术研究所杭州研究院 通过临近使能反应疗法开发的共价蛋白质药物
CN114464270A (zh) * 2022-01-17 2022-05-10 北京工业大学 一种针对不同靶点蛋白进行药物设计的通用性方法
CN115132270A (zh) * 2022-07-13 2022-09-30 深圳先进技术研究院 药物筛选方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113179631A (zh) * 2019-11-25 2021-07-27 中国科学院理化技术研究所杭州研究院 通过临近使能反应疗法开发的共价蛋白质药物
CN113096723A (zh) * 2021-03-24 2021-07-09 北京晶派科技有限公司 小分子药物筛选通用分子库构建平台
CN113066525A (zh) * 2021-03-30 2021-07-02 中山大学 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN114464270A (zh) * 2022-01-17 2022-05-10 北京工业大学 一种针对不同靶点蛋白进行药物设计的通用性方法
CN115132270A (zh) * 2022-07-13 2022-09-30 深圳先进技术研究院 药物筛选方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENGHE TANG等: "Pocket2Mol: Efficient Molecular Sampling Based on 3D Protein Pockets", 《ARXIV:2205.07249V1 [CS.LG]》, pages 1 - 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597892A (zh) * 2023-05-15 2023-08-15 之江实验室 一种模型训练的方法以及分子结构信息的推荐方法及装置
CN116597892B (zh) * 2023-05-15 2024-03-19 之江实验室 一种模型训练的方法以及分子结构信息的推荐方法及装置
CN116994671A (zh) * 2023-09-25 2023-11-03 之江实验室 一种基于点云数据快速筛选小分子药物的方法及装置
CN116994671B (zh) * 2023-09-25 2024-01-02 之江实验室 一种基于点云数据快速筛选小分子药物的方法及装置

Similar Documents

Publication Publication Date Title
US11900225B2 (en) Generating information regarding chemical compound based on latent representation
CN115762662A (zh) 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台
Bradshaw et al. A model to search for synthesizable molecules
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN113593633B (zh) 基于卷积神经网络的药物-蛋白相互作用预测模型
Wu et al. A comprehensive review and evaluation of computational methods for identifying protein complexes from protein–protein interaction networks
Ris et al. U-curve: A branch-and-bound optimization algorithm for U-shaped cost functions on Boolean lattices applied to the feature selection problem
US20230098285A1 (en) Apparatus and method for generating a protein-drug interaction prediction model for predicting protein-drug interaction and determining its uncertainty, and protein-drug interaction prediction apparatus and method
Wang et al. Predicting protein interactions using a deep learning method-stacked sparse autoencoder combined with a probabilistic classification vector machine
CN114999565A (zh) 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
Guo et al. Diffusion models in bioinformatics and computational biology
US10790045B1 (en) System and method for screening homopolymers, copolymers or blends for fabrication
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
Khamis et al. Deep learning is Competing with Random forest in Computational Docking
McNaughton et al. De novo design of protein target specific scaffold-based Inhibitors via Reinforcement Learning
Tian et al. Predicting molecular properties based on the interpretable graph neural network with multistep focus mechanism
Kuroda A novel descriptor based on atom-pair properties
US20240006017A1 (en) Protein Structure Prediction
Engkvist et al. Molecular De Novo Design Through Deep Generative Models
CN115148279A (zh) 蛋白质与配体分子的亲和力预测方法及装置
CN114091108B (zh) 一种智能系统隐私性评估方法及系统
CN117637029A (zh) 基于深度学习模型的抗体可开发性预测方法和装置
Loni Efficient Design of Scalable Deep Neural Networks for Resource-Constrained Edge Devices
Yu et al. Prediction of drug-target binding affinity based on multi-scale feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination