CN110970099A - 一种基于正则化变分自动编码器的药物分子生成方法 - Google Patents
一种基于正则化变分自动编码器的药物分子生成方法 Download PDFInfo
- Publication number
- CN110970099A CN110970099A CN201911255006.2A CN201911255006A CN110970099A CN 110970099 A CN110970099 A CN 110970099A CN 201911255006 A CN201911255006 A CN 201911255006A CN 110970099 A CN110970099 A CN 110970099A
- Authority
- CN
- China
- Prior art keywords
- drug
- drug molecule
- molecules
- encoder
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 149
- 229940079593 drug Drugs 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000012614 Monte-Carlo sampling Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000011541 reaction mixture Substances 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000002547 new drug Substances 0.000 description 14
- 238000012360 testing method Methods 0.000 description 11
- 238000012216 screening Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012827 research and development Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 239000000543 intermediate Substances 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000000857 drug effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000005094 computer simulation Methods 0.000 description 2
- 238000011960 computer-aided design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010876 biochemical test Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000012912 drug discovery process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000010916 retrosynthetic analysis Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公布了一种基于正则化变分自动编码器的药物分子生成方法,将药物分子表示为图数据,利用变分自动编码器框架,建立包括编码器和解码器的药物分子生成模型;编码器利用图神经网络直接对输入的药物分子图进行编码;解码器采用多层感知机,优化目标包括重建损失、KL损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计。采用本发明技术生成的候选药物分子有效性更高,分子的性质更优异。
Description
技术领域
本发明涉及计算机人工智能与新药分子设计的交叉技术领域,尤其涉及一种基于正则化变分自动编码器的药物分子生成方法,是一种基于图神经网络、深度生成模型和性质目标正则化的进行新药分子设计的方法,适用于新药发现过程中候选药物分子的设计与生成。
背景技术
新药研发耗资巨大、周期漫长且成功率很低。其中候选药物分子的筛选是前期的关键环节,计算机辅助设计以及最新人工智能技术的引入,已经大幅度提升了分子筛选的效率。但传统的计算机筛选方法大都针对已有的化合物,或基于结构或基于性质等特征对其进行筛选,新一代的新药发现策略则开启了直接设计全新分子的途径。具体是指,针对某种疾病或靶点预设药效等对新分子的期望属性,根据已有相关药物分子的结构,采用计算机模拟生成的计算方法设计全新的分子结构,所依据的原理是“相似的结构很可能具有相同的性质”,进而通过化学合成方法以人工方式合成新分子,并进一步在真实的化学、生物和人体等环境中检测其药效和其他物理化学性质,从而完成新药的开发。该途径可大幅缩短新药研制和临床试验的时间,具有广阔的应用前景。
在上述过程中,通过计算机模拟、生成具备特定生化性质的药物分子是此类方法的关键。然而,现有药物分子生成方法仍面临一些挑战。首先,潜在药物分子的表示空间巨大,而且不连续,搜索药物分子任务本身十分艰巨。有医疗文献显示,化学分子的表示空间范围可达1023~1060。其次,分子结构和分子性质之间的对应关系十分微妙,难以进行准确的量化描述,即使结构十分接近的分子其生化性质也可能完全不同,即,对某些子结构的微小改动都可以导致性质的大幅改变。
现有分子生成方法一般采用SMILES(Simplified molecular input line entryspecification,简化分子线性输入规范)和分子指纹等字符串方式表示分子,并借助自然语言处理的方法来实现生成算法,此类方法的鲁棒性较差,即微小的修改可能导致完全不合理的分子。同时,基于字符串的语法约束会对分子生成产生过多限制,给分子生成的优化过程造成负担。在生成分子图的任务中,一个关键的难点在于使得模型的学习目标包含高度复杂而不可微的分子性质度量,为了解决这个问题,目前有基于强化学习和基于贝叶斯优化等两种方法。但是,基于强化学习的方法需要引入额外网络,使得计算和收敛难度增大,同时很难设计合理的即时奖励;基于贝叶斯优化的方法由于其两阶段的特性,使得性质目标的优化很大程度依赖于第一阶段中所学模型的隐向量空间的光滑性。
发明内容
本发明提出了一种基于正则化变分自动编码器的药物分子生成方法。该方法采用图(Graph)数据结构(图矩阵)表示药物分子,以变分自动编码器作为基本生成框架,在此基础上加入性质目标正则化项。利用图数据结构表示药物分子,在结构上,该模型包括编码器和解码器两部分,其中编码器利用图神经网络直接对输入图表示进行编码,解码器主要由多层感知机(多层全连接神经网络)组成,优化目标包括重建损失,KL损失(Kullback-Leibler Divergence,KL散度),以及性质正则化损失三部分。其中,性质正则化损失采用蒙特卡洛采样进行估计。采用本发明方法可有效生成分子性质优化的候选药物分子。
本发明方法直接形式化性质目标正则化项来促使模型学习高度复杂而不可微的性质度量,有效降低了网络复杂度且无两阶段操作,对隐向量空间光滑性的依赖性降低,分子生成效果较优。
本发明的技术方案是:
一种基于正则化变分自动编码器的药物分子生成方法,利用变分自动编码器,将药物分子表示为图矩阵数据,建立包括编码器和解码器的药物分子生成模型,其中编码器利用图神经网络直接对输入的药物分子图进行编码,解码器包括多层感知机,优化目标包括重建损失、KL(Kullback-Leibler Divergence,KL散度)损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计;包括以下主要步骤:构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现基于图数据结构的深度生成模型、设计并实现性质目标正则化方案、模型训练、生成流程执行、生成结果的验证与应用。
步骤1,构建有效药物分子库
通过有针对性地收集现有药物的信息,即真实数据,建立用于药物分子生成模型训练和测试的分子信息库,分子信息库包含了一些已知药物分子的结构信息(药物分子表示为图数据,其结构信息包括图中的节点和边),和用于测试的药物分子的理化信息,例如分子的脂水分配系数的对数值(logP)、类药性、可合成性等。
步骤2,搭建药物分子生成模型
21)搭建药物分子生成过程的基本模型,即变分自动编码器,通过学习真实数据和先验分布的联合概率分布实现分子生成。
本发明构建药物分子生成模型pθ(G|z),采用图数据(G)表示药物分子(z为G通过编码器编码得到的隐向量),在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)如下目标函数:
式(1)中,为药物分子生成模型pθ(G|z)的目标函数;-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数;表示重建损失的相反数;G为表示真实药物分子的图数据;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;表示关于概率分布qφ(z|G)的期望;
22)设计并实现基于图数据结构的深度生成模型
设计基于图神经网络的编码器和图数据结构解码器,使得模型以图数据结构为表示进行计算。药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:
在式(1)中,图数据G用于表示真实分子,模型训练数据采用步骤1建立的药物分子库中的药物分子;z为G通过编码器编码得到的隐向量。编码器输出一个矩阵和一个张量N为要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,这一行是节点i的类型的概率分布,同样地,是节点i和节点j之间边的类型的概率分布。因此,我们可以从中采样得到一个分子图G=(A,X),其中,A表示图的边;X表示图的节点;A由采样得到,X由采样得到;表示节点的概率分布;表示边的概率分布;表示图的概率分布。编码器的结构采用图神经网络,解码器则是多层全连接神经网络。
23)设计并实现药物分子性质目标正则化方法
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项。该期望表示为式(2):
其中,SG表示图数据G对应的药物分子的待优化的性质S,表示为式(3):
其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):
基于上述药物分子性质目标正则化方法,所提出的药物分子生成模型能够生成具有特定性质的分子。
步骤3,药物分子生成模型的训练
通过上述训练过程利用步骤1建立的药物分子库中的药物分子对药物分子生成模型pθ(G|z)进行训练,得到训练好的药物分子生成模型pθ(G|z)。
步骤4,利用训练好的药物分子生成模型pθ(G|z),执行药物分子生成流程,生成候选药物分子
设定药物分子的待优化目标,利用上述从先验分布pθ(z)中采样再经过训练后得到的训练好的药物分子生成模型pθ(G|z),从先验分布中采样并送入生成模型生成候选药物分子,输入候选药物分子,将候选药物分子与药物分子库中具有理化信息的分子进行比较,用于测试生成的药物分子。
步骤5,性质检测
对生成的候选药物分子可进行药物分子性质检测(包括药物分子的生物利用度)和可合成性评估,进一步确认其有效性。
通过上述步骤,实现一种基于正则化变分自动编码器的药物分子生成。
与现有技术相比,本发明的有益效果是:
分子生成的目标之一是优化分子的性质,本发明采用的是基于图表示的分子生成方法,图中的节点用于表示原子,图中的边用于表示化学键,该方法比基于字符串的方法更具可解释性和鲁棒性。本发明形式化了一个反应定量分子性质的正则化项,利用蒙特卡洛方法可以得到一个可微的估计值,使得可以用梯度下降法来学习此目标,省去了额外的网络设计,降低了收敛难度,同时生成阶段可直接解码先验分布,从而简化了基于贝叶斯优化类方法的两步操作。采用本发明技术生成的候选药物分子有效性更高,分子的性质更优异。
附图说明
图1为本发明提供的药物分子生成方法的流程框图。
图2为本发明实施例的药物分子生成模型示意图。
图3为本发明的训练示意图
图4为本发明的生成示意图
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
新药研发耗资大、周期长,其关键环节之一是候选药物分子的筛选,人工智能技术的引入可以有效提升筛选效率,但基于筛选的方法限于现有已有化合物,范围有限,新一代方法则侧重全新的分子生成方法。
本发明提出基于深度生成模型的分子生成模型,涉及计算机人工智能和医药分子设计的交叉领域,其核心思想是将图神经网络和性质正则化同时引入深度生成模型,能够有效利用图表示的符合直觉同时能够捕捉分子内在相似性等特点,并解决了分子性质作为优化目标高度复杂而不可微的问题。
如图1所示,本发明方法包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。
图2所示为本发明具体实施时构建的基于深度生成模型的药物分子生成模型的结构示意图,其中,图2的上半部分为训练阶段的数据流通路径,真实药物分子A(如阿司匹林)
经过编码器编码后得到变分后验概率分布qφ(z|G)=N([-0.1159,-0.2748,-0.0782,-0.0107,0.0685,0.0596,-0.1988,0.0028],[0.0154,0.5714,0.9075,0.9758,0.9763,1.0359,0.7208,0.9160]×I),此分布再经过解码之后得到解码分子B
在训练阶段我们的目标是使得解码得到的分子B和输入的分子A相同,同时迫使qφ(z|G)与pθ(z)具有相同的分布,详见图3。图2的下半部分为生成阶段的数据流通路径,在解码器训练完成之后,为了生成有效的药物分子,我们从先验分布中采样得到分子的隐向量表示,然后将其送入解码器即可生成我们想要的分子C(即候选药物分子)
详见图4。
步骤1构建有效药物分子库
收集现有药物分子的信息,包括结构、物理化学属性、药效等,建立用于药物分子生成的分子信息库,并标注各种药物对于特定病种的有效性。药物分子库将用于模型的训练和测试。模型训练时可利用药物分子库中的分子图数据,模型测试时将待测药物分子与药物分子库中具有理化信息的分子进行比较。
步骤2搭建药物分子生成基本模型
本方法是基于深度生成模型的一种分子图生成方法,我们的目标是学习一个药物分子生成模型pθ(G|z)。在变分推断中,我们利用一个变分后验qφ(z|G)来估计真实后验,根据变分推断的原理,最大化如下目标函数:
式(1)中,为目标函数;G为表示真实药物分子的图数据;z为G通过编码器编码得到的隐向量;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;表示关于概率分布qφ(z|G)的期望;
步骤3设计并实现基于图数据结构的深度生成模型,作为药物分子生成模型;
药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:
在公式(1)中,图数据G用于表示真实分子,z为G通过编码器编码得到的隐向量。编码器输出一个矩阵和一个张量N为我们要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,这一行是节点i的类型的概率分布,同样地,是节点i和节点j之间边的类型的概率分布。因此,我们可以从中采样得到一个分子图G=(A,X),其中A由采样得到,X由采样得到。编码器的结构采用图神经网络(如图注意力网络GAT,Graph Attention Network),解码器则采用多层全连接神经网络。
步骤4设计并实现分子性质目标正则化方法,使得模型能够生成具有特定性质的分子;
设S是需要优化的分子性质(如分子的脂水分配系数的对数值(logP)、类药性、可合成性等性质),我们可以将它关于分布pθ(G|z)的期望作为正则化项。该期望可以写成式(2):
其中,SG是表示为图数据G的药物分子待优化的性质S。同时,根据结构性质关系模型,得到式(3):
其中,Q是所有模式的集合,nq是模式q在图G中出现的次数,cq是模式q每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):
步骤5模型训练
其中,V(m)和E(m)分别是采样所得模式q(m)中的原子集合和边集合,pit和pijr分别表示it和ijr对应的神经元值。
步骤6生成流程执行
根据给定的优化目标,从先验分布pθ(z)中采样,利用经过训练后得到的训练好的药物分子生成模型pθ(G|z),即可生成具有特定性质的药物分子。
步骤7生成结果的验证与应用
1)性质检测
对药物分子生成模型所生成的候选分子,进行性质检测。即根据分子结构计算并预测相应的分子性质,并将所得性质与设计要求做对比。具体地,一般为了得到有效的药物分子,对生成的药物分子的以下性质进行检测,判断药物分子的生物利用度。如选用Lipinski规则检测:分子的分子量是否小于500,氢键给体(包括羟基、氨基等)的数量不超过5个,氢键受体的数量不超过10个,脂水分配系数的对数值(logP)在-2到5之间,其可旋转键的数量不超过10个等。对于满足要求的分子,将进一步拆分其结构得到状态序列,并将其加入到策略缓冲区中,同时将其移交至下一步做可合成性检验。对于尚未达到要求或可能有悖于药物分子规律的分子,将其转入下一轮的生成过程,进行再次迭代,或放弃后开启新一轮的生成过程。
2)可合成性评估
鉴于本模型所生成的分子很可能并不存在于现实世界,因此,为评估后续化学工作者合成该分子的难易程度,需要对其可合成性进行评估。本发明采用逆合成分析法进行分子的可合成性评估。即采用互换、添加官能团以及逆向切断等方法将生成的分子变成若干中间产物或原料。之后再对中间产物重复进行逆合成分析,直到所有中间产物变成简单、易得的分子。
3)为实体试验输出候选结果
输出本方案所生成的分子,即作为新药的候选分子输出其结构描述。本发明技术方案可用于辅助新药研发,能够提高其对候选分子的筛选效率,但是并不能取代新药研发各项实体试验,包括生化试验、动物试验和各期临床试验等,新药研发机构需要完成后续试验,以得到最终的新药化合物。
计算机辅助分子生成是一个新兴的交叉领域,在医药研发、疾病诊断和材料科学中具有广阔的应用前景。一方面,传统药物分子的研发周期漫长、耗资巨大且很难筛选出有效的分子。虽然计算机辅助设计及人工智能算法极大的提高了分子筛选的效率。但传统的计算机大多依赖已有的化合物、结构、性质进行设计,而新一代的药物设计往往是针对疾病或靶点预设药效等对药分子的期望属性,根据相关已有的药分子结构进行新药分子的设计。而本发明所提出的对抗模仿学习方法可以很好的学习到分子结构与特定药物属性之间难以量化的关系,能以更高的效率生成可满足新药设计需求的候选药物分子,且其鲁棒性、生成分子的新颖性均可获得提升。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (5)
1.一种基于正则化变分自动编码器的药物分子生成方法,将药物分子表示为图数据,利用变分自动编码器框架,建立包括编码器和解码器的药物分子生成模型;编码器利用图神经网络直接对输入的药物分子图进行编码;解码器采用多层感知机,优化目标包括重建损失、KL损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计;包括以下步骤:
步骤1,构建有效药物分子库;药物分子库包括已知药物分子结构信息和理化信息;
步骤2,搭建药物分子生成模型,包括如下过程:
21)搭建药物分子生成过程的基本模型,即变分自动编码器,通过学习真实数据和隐向量的联合概率分布实现分子生成;
构建药物分子生成模型pθ(G|z),采用图数据表示药物分子,在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)如下目标函数:
式(1)中,为药物分子生成模型pθ(G|z)的目标函数;-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数;表示重建损失的相反数;G为表示真实药物分子的图数据;z为G通过编码器编码得到的隐向量;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;表示关于概率分布qφ(z|G)的期望;
22)设计并实现基于图数据结构的深度生成模型即药物分子生成模型;
设计基于图神经网络的编码器和基于图数据结构解码器,建立基于图数据结构的深度生成模型即药物分子生成模型;药物分子生成模型包括编码器和解码器;具体地:
编码器的结构采用图神经网络,解码器采用多层全连接神经网络即多层感知机;
23)设计并实现药物分子性质目标正则化方法,使得利用药物分子生成模型可生成具有特定性质的分子;具体过程为:
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项,表示为式(2):
其中,SG表示图数据G对应的药物分子的待优化的性质S,表示为式(3):
其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献;
根据公式(2)和(3)可得式(4):
步骤3,对构建的药物分子生成模型进行训练;
通过上述训练过程对药物分子生成模型pθ(G|z)进行训练,得到训练好的药物分子生成模型pθ(G|z);
步骤4,利用训练好的药物分子生成模型pθ(G|z),执行药物分子生成流程,生成候选药物分子;
设定药物分子的待优化目标,利用上述从先验分布pθ(z)中采样再经过训练后得到的训练好的药物分子生成模型pθ(G|z),即可生成具有所设定目标优化性质的候选药物分子;
步骤5,对生成的候选药物分子可进行药物分子性质检测和可合成性评估,进一步确认其有效性;
通过上述步骤,实现一种基于正则化变分自动编码器的药物分子生成。
2.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,药物分子的理化信息包括LogP和可合成性。
4.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,步骤5对生成的候选药物分子可进行药物分子性质检测包括:药物分子的生物利用度;
根据分子结构计算并预测相应的分子性质,并将所得分子性质与设计要求进行对比检测,采用Lipinski规则检测,得到药物分子的生物利用度。
5.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,步骤5对生成的候选药物分子具体采用逆合成分析法进行可合成性评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911255006.2A CN110970099B (zh) | 2019-12-10 | 2019-12-10 | 一种基于正则化变分自动编码器的药物分子生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911255006.2A CN110970099B (zh) | 2019-12-10 | 2019-12-10 | 一种基于正则化变分自动编码器的药物分子生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970099A true CN110970099A (zh) | 2020-04-07 |
CN110970099B CN110970099B (zh) | 2023-04-28 |
Family
ID=70033737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911255006.2A Active CN110970099B (zh) | 2019-12-10 | 2019-12-10 | 一种基于正则化变分自动编码器的药物分子生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110970099B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798934A (zh) * | 2020-06-23 | 2020-10-20 | 苏州浦意智能医疗科技有限公司 | 一种基于图神经网络的分子性质预测方法 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
CN112071373A (zh) * | 2020-09-02 | 2020-12-11 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
CN112151127A (zh) * | 2020-09-04 | 2020-12-29 | 牛张明 | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 |
CN112199884A (zh) * | 2020-09-07 | 2021-01-08 | 深圳先进技术研究院 | 物品分子生成方法、装置、设备及存储介质 |
CN112270951A (zh) * | 2020-11-10 | 2021-01-26 | 四川大学 | 基于多任务胶囊自编码器神经网络的全新分子生成方法 |
CN112331277A (zh) * | 2020-10-28 | 2021-02-05 | 星药科技(北京)有限公司 | 一种基于强化学习的路径可控的药物分子生成方法 |
CN112397157A (zh) * | 2020-10-28 | 2021-02-23 | 星药科技(北京)有限公司 | 基于子图-变分自编码结构的分子生成方法 |
CN113140267A (zh) * | 2021-03-25 | 2021-07-20 | 北京化工大学 | 一种基于图神经网络的定向分子生成方法 |
CN113314189A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种化学分子结构的图神经网络表征方法及装置 |
CN113327651A (zh) * | 2021-05-31 | 2021-08-31 | 东南大学 | 一种基于变分自编码器和消息传递神经网络的分子图生成方法 |
WO2021180246A1 (zh) * | 2020-10-31 | 2021-09-16 | 平安科技(深圳)有限公司 | 药物分子生成方法、装置、终端设备以及存储介质 |
CN113488116A (zh) * | 2021-07-09 | 2021-10-08 | 中国海洋大学 | 一种基于强化学习和对接的药物分子智能生成方法 |
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
WO2022047677A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
WO2022105662A1 (en) * | 2020-11-23 | 2022-05-27 | International Business Machines Corporation | Topology-driven completion of chemical data |
CN114627983A (zh) * | 2020-12-14 | 2022-06-14 | 国际商业机器公司 | 可解释的分子生成模型 |
CN114913938A (zh) * | 2022-05-27 | 2022-08-16 | 中南大学 | 一种基于药效团模型的小分子生成方法、设备及介质 |
CN116130036A (zh) * | 2023-01-09 | 2023-05-16 | 四川大学 | 一种基于图表示的金属有机框架的逆向设计方法 |
CN116705195A (zh) * | 2023-06-07 | 2023-09-05 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
CN117692346A (zh) * | 2024-01-31 | 2024-03-12 | 浙商银行股份有限公司 | 基于谱正则化变分自编码器的消息阻塞预测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1715926A (zh) * | 2004-07-02 | 2006-01-04 | 上海泽生科技开发有限公司 | 神经调节蛋白突变体、筛选方法及应用 |
CN103049674A (zh) * | 2013-01-26 | 2013-04-17 | 北京东方灵盾科技有限公司 | 一种化学药物hERG钾离子通道阻断作用的定性预测方法及其系统 |
US20170161635A1 (en) * | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
CN106874688A (zh) * | 2017-03-01 | 2017-06-20 | 中国药科大学 | 基于卷积神经网络的智能化先导化合物发现方法 |
CN110348573A (zh) * | 2019-07-16 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 训练图神经网络的方法、图神经网络设备、装置、介质 |
CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
CN110534164A (zh) * | 2019-09-26 | 2019-12-03 | 广州费米子科技有限责任公司 | 基于深度学习的药物分子生成方法 |
-
2019
- 2019-12-10 CN CN201911255006.2A patent/CN110970099B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1715926A (zh) * | 2004-07-02 | 2006-01-04 | 上海泽生科技开发有限公司 | 神经调节蛋白突变体、筛选方法及应用 |
CN103049674A (zh) * | 2013-01-26 | 2013-04-17 | 北京东方灵盾科技有限公司 | 一种化学药物hERG钾离子通道阻断作用的定性预测方法及其系统 |
US20170161635A1 (en) * | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
CN106874688A (zh) * | 2017-03-01 | 2017-06-20 | 中国药科大学 | 基于卷积神经网络的智能化先导化合物发现方法 |
CN110348573A (zh) * | 2019-07-16 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 训练图神经网络的方法、图神经网络设备、装置、介质 |
CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
CN110534164A (zh) * | 2019-09-26 | 2019-12-03 | 广州费米子科技有限责任公司 | 基于深度学习的药物分子生成方法 |
Non-Patent Citations (1)
Title |
---|
瞿经纬;吕肖庆;刘振明;廖媛;孙鹏晖;王蓓;汤帜;: "一种基于图塌缩的药物分子检索方法" * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798934A (zh) * | 2020-06-23 | 2020-10-20 | 苏州浦意智能医疗科技有限公司 | 一种基于图神经网络的分子性质预测方法 |
CN111798934B (zh) * | 2020-06-23 | 2023-11-14 | 苏州浦意智能医疗科技有限公司 | 一种基于图神经网络的分子性质预测方法 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
CN111816265B (zh) * | 2020-06-30 | 2024-04-05 | 北京晶泰科技有限公司 | 一种分子生成方法和计算设备 |
CN112071373A (zh) * | 2020-09-02 | 2020-12-11 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
WO2022047677A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
CN112151127A (zh) * | 2020-09-04 | 2020-12-29 | 牛张明 | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 |
CN112199884A (zh) * | 2020-09-07 | 2021-01-08 | 深圳先进技术研究院 | 物品分子生成方法、装置、设备及存储介质 |
CN112199884B (zh) * | 2020-09-07 | 2024-08-13 | 深圳先进技术研究院 | 物品分子生成方法、装置、设备及存储介质 |
CN112397157A (zh) * | 2020-10-28 | 2021-02-23 | 星药科技(北京)有限公司 | 基于子图-变分自编码结构的分子生成方法 |
CN112331277A (zh) * | 2020-10-28 | 2021-02-05 | 星药科技(北京)有限公司 | 一种基于强化学习的路径可控的药物分子生成方法 |
WO2021180246A1 (zh) * | 2020-10-31 | 2021-09-16 | 平安科技(深圳)有限公司 | 药物分子生成方法、装置、终端设备以及存储介质 |
CN112270951A (zh) * | 2020-11-10 | 2021-01-26 | 四川大学 | 基于多任务胶囊自编码器神经网络的全新分子生成方法 |
GB2616557A (en) * | 2020-11-23 | 2023-09-13 | Ibm | Topology-driven completion of chemical data |
WO2022105662A1 (en) * | 2020-11-23 | 2022-05-27 | International Business Machines Corporation | Topology-driven completion of chemical data |
CN114627983A (zh) * | 2020-12-14 | 2022-06-14 | 国际商业机器公司 | 可解释的分子生成模型 |
CN113140267A (zh) * | 2021-03-25 | 2021-07-20 | 北京化工大学 | 一种基于图神经网络的定向分子生成方法 |
CN113140267B (zh) * | 2021-03-25 | 2024-03-29 | 北京化工大学 | 一种基于图神经网络的定向分子生成方法 |
CN113314189A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种化学分子结构的图神经网络表征方法及装置 |
CN113314189B (zh) * | 2021-05-28 | 2023-01-17 | 北京航空航天大学 | 一种化学分子结构的图神经网络表征方法 |
CN113327651A (zh) * | 2021-05-31 | 2021-08-31 | 东南大学 | 一种基于变分自编码器和消息传递神经网络的分子图生成方法 |
CN113488116B (zh) * | 2021-07-09 | 2023-03-10 | 中国海洋大学 | 一种基于强化学习和对接的药物分子智能生成方法 |
CN113488116A (zh) * | 2021-07-09 | 2021-10-08 | 中国海洋大学 | 一种基于强化学习和对接的药物分子智能生成方法 |
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
CN114038516B (zh) * | 2021-11-25 | 2024-04-19 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化方法 |
CN114386694B (zh) * | 2022-01-11 | 2024-02-23 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN114496112B (zh) * | 2022-01-21 | 2023-10-31 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
WO2023226351A1 (zh) * | 2022-05-27 | 2023-11-30 | 中南大学 | 一种基于药效团模型的小分子生成方法、设备及介质 |
CN114913938A (zh) * | 2022-05-27 | 2022-08-16 | 中南大学 | 一种基于药效团模型的小分子生成方法、设备及介质 |
CN116130036B (zh) * | 2023-01-09 | 2024-03-01 | 四川大学 | 一种基于图表示的金属有机框架的逆向设计方法 |
CN116130036A (zh) * | 2023-01-09 | 2023-05-16 | 四川大学 | 一种基于图表示的金属有机框架的逆向设计方法 |
CN116705195A (zh) * | 2023-06-07 | 2023-09-05 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
CN116705195B (zh) * | 2023-06-07 | 2024-03-26 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
CN117692346A (zh) * | 2024-01-31 | 2024-03-12 | 浙商银行股份有限公司 | 基于谱正则化变分自编码器的消息阻塞预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110970099B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110970099A (zh) | 一种基于正则化变分自动编码器的药物分子生成方法 | |
CN112820361B (zh) | 一种基于对抗模仿学习的药物分子生成方法 | |
Martinelli | Generative machine learning for de novo drug discovery: A systematic review | |
Bishara et al. | A state-of-the-art review on machine learning-based multiscale modeling, simulation, homogenization and design of materials | |
Du et al. | Molgensurvey: A systematic survey in machine learning models for molecule design | |
CN107862173B (zh) | 一种先导化合物虚拟筛选方法和装置 | |
JP7236253B2 (ja) | 情報処理方法および学習モデル | |
CN113327651A (zh) | 一种基于变分自编码器和消息传递神经网络的分子图生成方法 | |
WO2022082739A1 (zh) | 基于卷积神经网络预测蛋白和配体分子结合自由能的方法 | |
US20220406404A1 (en) | Adversarial framework for molecular conformation space modeling in internal coordinates | |
Du et al. | Machine learning-aided generative molecular design | |
Zixuan et al. | GSL-DTI: Graph structure learning network for Drug-Target interaction prediction | |
Lazarus | Surrogate modelling of a patient-specific mathematical model of the left ventricle in diastole | |
Levy et al. | Molecular fragment-based diffusion model for drug discovery | |
Li et al. | Ensemble of local and global information for Protein–Ligand Binding Affinity Prediction | |
Mondal et al. | Reconstruction of gene regulatory networks using differential evolution | |
Raman et al. | Infinite mixture-of-experts model for sparse survival regression with application to breast cancer | |
Dong et al. | Advancing Drug Discovery with Deep Learning: Harnessing Reinforcement Learning and One-Shot Learning for Molecular Design in Low-Data Situations | |
Chen et al. | MFA-DTI: Drug-target interaction prediction based on multi-feature fusion adopted framework | |
CN104732117B (zh) | 基于反馈式条件随机场的g蛋白偶联受体拓扑计算预测方法 | |
WO2024183375A1 (zh) | 基于图卷积神经网络模型的蛋白质分子模拟结果分析方法 | |
Ramzan et al. | Machine Learning of Atomic Forces from Quantum Mechanics: a Model Based on Pairwise Interatomic Forces | |
Mishra | Deep Learning Based Convolute Neural Approach in The Prediction of RNA Structure | |
Liu et al. | A multi-feature and dual-attribute interaction aggregation model for predicting drug-target interactions | |
Ding | Methodological Advances for Drug Discovery and Protein Engineering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |