CN113327651A - 一种基于变分自编码器和消息传递神经网络的分子图生成方法 - Google Patents

一种基于变分自编码器和消息传递神经网络的分子图生成方法 Download PDF

Info

Publication number
CN113327651A
CN113327651A CN202110597729.1A CN202110597729A CN113327651A CN 113327651 A CN113327651 A CN 113327651A CN 202110597729 A CN202110597729 A CN 202110597729A CN 113327651 A CN113327651 A CN 113327651A
Authority
CN
China
Prior art keywords
node
encoder
drug molecule
neural network
drug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110597729.1A
Other languages
English (en)
Inventor
裴文江
蒋冰越
夏亦犁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110597729.1A priority Critical patent/CN113327651A/zh
Publication of CN113327651A publication Critical patent/CN113327651A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于变分自编码器和消息传递神经网络的分子图生成方法,以进行分子生成和分子目标特性优化;本发明采用了消息传递神经网络构建到变分自编码器的编码器和解码器中,进一步减少了训练过程的运行时间和占用内存;另外,通过构造变分自编码器的潜在空间,以允许优化分子性质;在QM9化学数据库上的分子生成实验中,该模型能够生成100%有效的化合物,并且新颖率和唯一率也很高;在QM9化学数据库上的目标优化实验中,能够进一步优化目标特性。

Description

一种基于变分自编码器和消息传递神经网络的分子图生成 方法
技术领域
本发明涉及分子图生成技术领域,特别是涉及一种基于变分自编码器和消息传递神经网络的分子图生成方法。
背景技术
在现代社会,材料化学中新分子探索已经成为热门话题,而材料创新是许多近期技术进步的关键驱动力。材料创新是许多近期技术进步的关键驱动力。从清洁能源到航空航天业或药物开发,化学和材料科学领域的研究一直在不断发展,以开发出具有新颖用途、更低成本和更好性能的化合物。
在最高的抽象层次上,分子的设计被表述为一个组合优化问题,以便在广阔的化学空间中找到最佳解决方案。药物发现和材料科学中的许多重要问题都是基于设计具有特定期望性质的分子结构的原则。然而,由于化学空间的巨大,这仍然是一个具有挑战性的任务。一个药物化学家,或者说一个全新的分子设计软件,都面临一个几乎无限的搜索空间,这个搜索空间是巨大的,由于它的离散性,在这个空间中寻找目标化合物分子是非常困难的。
尽管在高通量筛选技术上取得了巨大的进步,但在如此大的空间中进行穷举搜索是不可能的。全新设计过程中的导航不是系统地构建和评估每个个体,而是依赖于局部优化的原则,这并不一定会导致全局最优解。
发明内容
有鉴于此,本发明的目的在于提供一种基于变分自编码器和消息传递神经网络的分子图生成方法,用以完成分子生成任务以及分子目标优化任务。
为了实现上述目的,本发明采用如下技术方案:
一种基于变分自编码器和消息传递神经网络的分子图生成方法,包括如下步骤:
步骤S1、构建药物分子库;
步骤S2、利用变分自编码器框架,建立包括编码器和解码器的药物分子生成模型;
步骤S3、将所述药物分子库输入至所述药物分子生成模型中进行训练,得到训练好的药物分子生成模型;
步骤S4、利用步骤S3中训练好的药物分子生成模型,执行分子生成流程,生成候选分子;
步骤S5、对步骤S4中得到的候选分子进行性质检测。
进一步的,所述步骤S1具体包括:获取QM9数据集,从该数据集中获取多种已知药物分子的信息,通过该信息建立所述药物分子库,该系统包括结构信息和理化信息,其中,所述药物分子表示为图数据,所述药物分子的结构信息包括图中的节点和边,所述理化信息包括分子的脂水分配系数的对数值、类药性和可合成性。
进一步的,所述步骤S2具体包括:
步骤S201、搭建药物分子生成过程的基本模型,即变分自编码器,通过学习真实数据和隐向量的联合概率分布实现分子生成,具体包括:
构建药物分子生成模型pθ(G|z),采用图数据表示药物分子,在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)的目标函数,表达式为:
Figure BDA0003091793540000021
公式(1)中,
Figure BDA0003091793540000022
为药物分子生成模型pθ(G|z)的目标函数,-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数,
Figure BDA0003091793540000023
表示重建损失的相反数,G为表示真实药物分子的图数据,z为G通过编码器编码得到的隐向量,pθ(G|z)为药物分子生成模型,qφ(z|G)为变分后验,下标ELBO表明该目标函数是证据因子的下界;DKL为KL散度,pθ(z)为先验分布,φ为解码器的参数,θ为编码器的参数,
Figure BDA0003091793540000024
表示关于概率分布qφ(z|G)的期望;
步骤S202、设计并实现基于图数据结构的深度生成模型即药物分子生成模型;设计基于图神经网络的编码器和基于图数据结构解码器,建立基于图数据结构的深度生成模型即药物分子生成模型;药物分子生成模型包括编码器和解码器,具体包括:
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项,表达式为:
Figure BDA0003091793540000025
公式(2)中,SG表示图数据G对应的药物分子的待优化的性质S,SG的具体表达式为:
Figure BDA0003091793540000026
公式(3)中,O表示所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献;结合公式(2)和公式(3)得到公式(4):
Figure BDA0003091793540000027
公式(4)中,
Figure BDA0003091793540000031
表示性质S关于概率分布
Figure BDA0003091793540000032
的期望,
Figure BDA0003091793540000033
是模式o出现的概率。
进一步的,所述步骤S3具体包括:
构建所述药物分子生成模型的目标函数,表达式为:
Figure BDA0003091793540000034
公式(5)中,
Figure BDA0003091793540000035
为性质正则化损失,采用蒙特卡洛估计来计算
Figure BDA0003091793540000036
的值,该估计值可微,然后采用基于梯度下降的学习算法来求解;
假设从分布
Figure BDA0003091793540000037
中采样得到o(m)且令o(m)=(V(m),E(m)),表示为以下公式:
Figure BDA0003091793540000038
公式(6)中,
Figure BDA0003091793540000039
表示模式o(m)出现的概率;V(m)和E(m)分别是采样所得模式o(m)中的原子集合和边集合,m为关于样本的索引,pit和pijr分别表示it和ijr对应的神经元值。
进一步的,所述步骤S4具体包括:
步骤S401、节点初始化:在一组最初未连接的节点中,将节点状态
Figure BDA00030917935400000310
与每个节点v相关联,zv是从d维标准正态分布
Figure BDA00030917935400000311
中采样得出的采样值,并且
Figure BDA00030917935400000312
是级联[zvv],其中τv是表征节点类型的可解释的独热向量,τv从可学习映射τv~f(zv)的Softmax输出中采样得到,其中f是一个从100维潜在空间到节点类型中某个类的线性分类器的神经网络;从这些节点级的变量
Figure BDA00030917935400000313
可以计算得出全局表示Ht,而全局表示初始化值Hinit就是t=0时的所有节点的平均表示。
步骤S402、边选择和边标记:首先从队列中选择焦点节点v,进行函数展开,然后选择从v到u的边
Figure BDA00030917935400000314
其中,边标记l在箭头上方,u表示为非焦点节点;
对于每个非焦点节点u,构建一个特征向量
Figure BDA00030917935400000315
其中,dv,u表示v和u之间的图距离,
Figure BDA00030917935400000316
为t时刻节点v的节点状态,
Figure BDA00030917935400000317
为t时刻节点u的节点状态;Hinit表示t=0时的所有节点的平均表示,Ht表示t时刻的所有节点的平均表示。
产生候选边的分布,表达式为:
Figure BDA00030917935400000318
步骤S403、节点更新:使用消息传递神经网络来更新图中每个节点的隐藏状态,具体包括消息传递阶段和读出阶段;
在消息传递阶段运行T个时间步长,由消息函数Mt和顶点更新函数Ut定义,在消息传递阶段,根据消息
Figure BDA0003091793540000041
更新图中每个节点的隐藏状态
Figure BDA0003091793540000042
表达式为:
Figure BDA0003091793540000043
Figure BDA0003091793540000044
公式(8)中,evw表示节点v和节点w之间边的状态,N(v)表示节点v的所有邻居节点的集合。
在读出阶段使用读出函数R计算整个图的特征向量,表达式为:
Figure BDA0003091793540000045
步骤S404、向节点添加边,直到选择到停止节点的边;
步骤S405、在选择到停止节点的边后,焦点节点失去焦点并变为关闭,从焦点队列中选择下一个焦点节点,边生成仍在继续,直到队列为空,没有新的候选焦点节点。
进一步的,所述步骤S5具体包括:对生成的候选药物分子进行药物分子性质检测和药物相似性QED检测。
本发明的有益效果是:
在分子生成任务中,本发明生成的分子的化学指标能够基本匹配溶解度上的训练数据集QM9的分布,倾向于集中分布,而在分子量上倾向于生成大分子量的分子,这使得本发明生成分子的唯一率较高;另外,本发明生成分子的有效率和新颖率指标均十分优异;在目标特性优化任务中,本发明可以生成高药物相似性QED的分子,优化性能具有较大的优势。
附图说明
图1为基于变分自编码器和消息传递神经网络的分子图生成模型的流程框图。
图2为基于变分自编码器和消息传递神经网络的分子图生成模型示意图。
图3为基于变分自编码器和消息传递神经网络的分子图生成模型的生成流程。
图4为目标特性优化任务中生成分子的前3个最高QED得分。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1-图4,本实施例提供一种基于变分自编码器和消息传递神经网络的分子图生成方法,在该方法中,本实施例提出基于深度生成模型的分子生成模型,涉及计算机人工智能和医药分子设计的交叉领域,其核心思想是将图神经网络和性质正则化同时引入深度生成模型,能够有效利用图表示能够捕捉分子内在相似性的特点,解决了分子性质作为优化目标高度复杂而不可微的问题。
如图1所示,该方法包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。
图2所示为本发明具体实施时构建的基于深度生成模型的药物分子生成模型的结构示意图,其中,图2的上半部分为训练阶段的数据流通路径,真实药物分子A经过编码器编码后得到变分后验概率分布qφ(z|G),此分布再经过解码之后得到解码分子B。
在训练阶段我们的目标是使得解码得到的分子B和输入的分子A相同,同时迫使qφ(z|G)与pθ(z)具有相同的分布。图2的下半部分为生成阶段的数据流通路径,在解码器训练完成之后,为了生成有效的药物分子,从先验分布中采样得到分子的隐向量表示,然后将其送入解码器即可生成我们想要的分子C(即候选药物分子)。
该方法具体包括如下步骤:
步骤1构建有效药物分子库。
通过有针对性地收集QM9数据集中药物分子的信息,即真实数据,建立用于药物分子生成模型训练和测试的分子信息库,QM9分子信息库包含了一些已知药物分子的结构信息(药物分子表示为图数据,其结构信息包括图中的节点和边),和用于测试的药物分子的理化信息,例如分子的脂水分配系数的对数值(logP)、类药性、可合成性等。
步骤2搭建药物分子生成模型。
本方法是基于深度生成模型的一种分子图生成方法,目标是学习一个药物分子生成模型pθ(G|z)。在变分推断中,利用一个变分后验qφ(z|G)来估计真实后验,根据变分推断的原理,最大化如下目标函数:
Figure BDA0003091793540000051
上式中,
Figure BDA0003091793540000052
为分子生成模型pθ(G|z)的目标函数;-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数;
Figure BDA0003091793540000053
表示重建损失的相反数;G为表示真实药物分子的图数据;z为G通过编码器编码得到的隐向量;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;
Figure BDA0003091793540000061
表示关于概率分布qφ(z|G)的期望;
步骤3设计并实现基于图数据结构的深度生成模型,作为药物分子生成模型
药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:
在公式(1)中,图数据G用于表示真实分子,z为G通过编码器编码得到的隐向量。编码器输出一个矩阵
Figure BDA0003091793540000062
和一个张量
Figure BDA0003091793540000063
为要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,矩阵中的行
Figure BDA0003091793540000064
为节点i的类型的概率分布,
Figure BDA0003091793540000065
是节点i和节点j之间边的类型的概率分布;
Figure BDA0003091793540000066
中采样得到一个分子图G=(A,X),其中A由
Figure BDA0003091793540000067
采样得到,X由
Figure BDA0003091793540000068
采样得到;
编码器的结构采用图神经网络,解码器则采用多层全连接神经网络。
步骤4设计并实现分子性质目标正则化方法,使得模型能够生成具有特定性质的分子;
设S是需要优化的分子性质(如分子的脂水分配系数的对数值(logP)、类药性、可合成性等性质),可以将它关于分布pθ(G|z)的期望作为正则化项。该期望可以写成式
Figure BDA0003091793540000069
其中,SG表示图数据G对应的药物分子的待优化的性质S,表示为式(3):
Figure BDA00030917935400000610
其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):
Figure BDA00030917935400000611
式(4)中,
Figure BDA00030917935400000612
表示性质S关于概率分布
Figure BDA00030917935400000613
的期望,
Figure BDA00030917935400000614
是模式o出现的概率。
步骤5对构建的药物分子生成模型进行训练。
为训练所设计的药物分子生成模型,需要依据合理的目标函数。本发明中,药物分子生成模型需最大化如下目标函数L,表达式为:
Figure BDA00030917935400000615
其中,
Figure BDA0003091793540000071
为性质正则化损失;采用蒙特卡洛估计来计算
Figure BDA0003091793540000072
的值,该估计值可微,可采用基于梯度下降的学习算法来求解。假设从分布
Figure BDA0003091793540000073
中采样得到o(m)且令o(m)=(V(m),E(m)),表示为以下公式:
Figure BDA0003091793540000074
其中,
Figure BDA0003091793540000075
表示模式o(m)出现的概率;V(m)和E(m)分别是采样所得模式o(m)中的原子集合和边集合,m为关于样本的索引,pit和pijr分别表示it和ijr对应的神经元值。
步骤6利用训练好的药物分子生成模型,执行分子生成流程,生成候选分子。
(1)节点初始化:在一组最初未连接的节点中,将节点状态
Figure BDA0003091793540000076
与每个节点v相关联。zv从d维标准正态分布
Figure BDA0003091793540000077
中得出,并且
Figure BDA0003091793540000078
是级联[zvv],其中τv是表征节点类型的可解释的独热向量。τv从可学习映射τv~f(zv)的Softmax输出中采样得到,其中f是神经网络,从100维潜在空间到节点类型中某个类的线性分类器。从这些节点级的变量,可以计算全局表示Ht(在生成步骤t的连接分量中的节点的平均表示),并且Hinit(t=0时的所有节点的平均表示)。除了N个工作节点之外,还将特殊的“停止节点”初始化为学习表示
Figure BDA0003091793540000079
用于算法终止。
(2)边选择和边标记:首先从队列中选择焦点节点v。函数展开,然后选择从v到u的边
Figure BDA00030917935400000710
边标记l在箭头上方。对于每个非焦点节点u,构建一个特征向量
Figure BDA00030917935400000711
其中dv,u表示v和u之间的图距离。随后产生候选边的分布
Figure BDA00030917935400000712
(3)节点更新:使用消息传递神经网络来更新图中每个节点的隐藏状态。分为消息传递阶段和读出阶段。消息传递阶段运行T个时间步长,由消息函数Mt和顶点更新函数Ut定义。在消息传递阶段,根据消息
Figure BDA00030917935400000713
更新图中每个节点的隐藏状态
Figure BDA00030917935400000714
Figure BDA00030917935400000715
Figure BDA00030917935400000716
读出阶段使用某个读出函数R计算整个图的特征向量,即
Figure BDA00030917935400000717
(4)向节点添加边,直到选择到停止节点的边。
(5)在选择到停止节点的边后,焦点节点失去焦点并变为“关闭”,从焦点队列中选择下一个焦点节点。边生成仍在继续,直到队列为空,没有新的候选焦点节点。
以上分子生成流程如图3所示。
步骤7性质检测
对药物分子生成模型所生成的候选分子,进行性质检测。即根据分子结构计算并预测相应的分子性质,并将所得性质与设计要求做对比。具体地,一般为了得到有效的药物分子,对生成的药物分子的脂水分配系数的对数值(logP)、类药性进行检测,判断药物分子的生物利用度。
表1、分子生成任务结果对比
模型 有效率% 新颖率% 唯一率%
GrammarVAE 20.69 15.2 9.3
典型图生成模型 89.2 95.52 96.41
MGAN 99.8 93 2.3
MVAE 100 98.1 98.6
从表1可以看出,本实施例提出的模型在四种模型中具有较大的优势。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (6)

1.一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,包括如下步骤:
步骤S1、构建药物分子库;
步骤S2、利用变分自编码器框架,建立包括编码器和解码器的药物分子生成模型;
步骤S3、将所述药物分子库输入至所述药物分子生成模型中进行训练,得到训练好的药物分子生成模型;
步骤S4、利用步骤S3中训练好的药物分子生成模型,执行分子生成流程,生成候选分子;
步骤S5、对步骤S4中得到的候选分子进行性质检测。
2.根据权利要求1所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,所述步骤S1具体包括:获取QM9数据集,从该数据集中获取多种已知药物分子的信息,通过该信息建立所述药物分子库,该系统包括结构信息和理化信息,其中,所述药物分子表示为图数据,所述药物分子的结构信息包括图中的节点和边,所述理化信息包括分子的脂水分配系数的对数值、类药性和可合成性。
3.根据权利要求2所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,所述步骤S2具体包括:
步骤S201、搭建药物分子生成过程的基本模型,即变分自编码器,通过学习真实数据和隐向量的联合概率分布实现分子生成,具体包括:
构建药物分子生成模型pθ(G|z),采用图数据表示药物分子,在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)的目标函数,表达式为:
Figure FDA0003091793530000011
公式(1)中,
Figure FDA0003091793530000012
为药物分子生成模型pθ(G|z)的目标函数,-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数,
Figure FDA0003091793530000013
表示重建损失的相反数,G为表示真实药物分子的图数据,z为G通过编码器编码得到的隐向量,pθ(G|z)为药物分子生成模型,qφ(z|G)为变分后验,下标ELBO表明该目标函数是证据因子的下界;DKL为KL散度,pθ(z)为先验分布,φ为解码器的参数,θ为编码器的参数,
Figure FDA0003091793530000014
表示关于概率分布qφ(z|G)的期望;
步骤S202、设计并实现基于图数据结构的深度生成模型即药物分子生成模型;设计基于图神经网络的编码器和基于图数据结构解码器,建立基于图数据结构的深度生成模型即药物分子生成模型;具体包括:
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项,表达式为:
Figure FDA0003091793530000021
公式(2)中,SG表示图数据G对应的药物分子的待优化的性质S,SG的具体表达式为:
Figure FDA0003091793530000022
公式(3)中,O表示所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献;结合公式(2)和公式(3)得到公式(4):
Figure FDA0003091793530000023
公式(4)中,
Figure FDA0003091793530000024
表示性质S关于概率分布
Figure FDA0003091793530000025
的期望,
Figure FDA0003091793530000026
是模式o出现的概率。
4.根据权利要求3所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,所述步骤S3具体包括:
构建所述药物分子生成模型的目标函数,表达式为:
Figure FDA0003091793530000027
公式(5)中,
Figure FDA0003091793530000028
为性质正则化损失,采用蒙特卡洛估计来计算
Figure FDA0003091793530000029
的值,该估计值可微,然后采用基于梯度下降的学习算法来求解;
假设从分布
Figure FDA00030917935300000210
中采样得到o(m)且令o(m)=(V(m),E(m)),表示为以下公式:
Figure FDA00030917935300000211
公式(6)中,
Figure FDA00030917935300000215
表示模式o(m)出现的概率;V(m)和E(m)分别是采样所得模式o(m)中的原子集合和边集合,m为关于样本的索引,pit和pijr分别表示it和ijr对应的神经元值。
5.根据权利要求4所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,所述步骤S4具体包括:
步骤S401、节点初始化:在一组最初未连接的节点中,将节点状态
Figure FDA00030917935300000212
与每个节点v相关联,zv是从d维标准正态分布
Figure FDA00030917935300000213
采样得出的采样值,并且
Figure FDA00030917935300000214
是级联[zvv],其中τv是表征节点类型的可解释的独热向量,τv从可学习映射τv~f(zv)的Softmax输出中采样得到,其中f是一个从100维潜在空间到节点类型中某个类的线性分类器的神经网络;从这些节点级的变量
Figure FDA00030917935300000311
计算得出全局表示Ht,而全局表示初始化值Hinit就是t=0时的所有节点的平均表示;
步骤S402、边选择和边标记:首先从队列中选择焦点节点v,进行函数展开,然后选择从v到u的边
Figure FDA0003091793530000031
其中,边标记l在箭头上方,u表示为非焦点节点;
对于每个非焦点节点u,构建一个特征向量
Figure FDA0003091793530000032
其中,dv,u表示v和u之间的图距离,
Figure FDA0003091793530000033
为t时刻节点v的节点状态,
Figure FDA0003091793530000034
为t时刻节点u的节点状态;Hinit表示t=0时的所有节点的平均表示,Ht表示t时刻的所有节点的平均表示;
产生候选边的分布,表达式为:
Figure FDA0003091793530000035
步骤S403、节点更新:使用消息传递神经网络来更新图中每个节点的隐藏状态,具体包括消息传递阶段和读出阶段;
在消息传递阶段运行T个时间步长,由消息函数Mt和顶点更新函数Ut定义,在消息传递阶段,根据消息
Figure FDA0003091793530000036
更新图中每个节点的隐藏状态
Figure FDA0003091793530000037
表达式为:
Figure FDA0003091793530000038
Figure FDA0003091793530000039
公式(8)中,evw表示节点v和节点w之间边的状态,N(v)表示节点v的所有邻居节点的集合;
在读出阶段使用读出函数R计算整个图的特征向量,表达式为:
Figure FDA00030917935300000310
步骤S404、向节点添加边,直到选择到停止节点的边;
步骤S405、在选择到停止节点的边后,焦点节点失去焦点并变为关闭,从焦点队列中选择下一个焦点节点,边生成仍在继续,直到队列为空,没有新的候选焦点节点。
6.根据权利要求5所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法,其特征在于,所述步骤S5具体包括:对生成的候选药物分子进行药物分子性质检测和药物相似性QED检测。
CN202110597729.1A 2021-05-31 2021-05-31 一种基于变分自编码器和消息传递神经网络的分子图生成方法 Pending CN113327651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597729.1A CN113327651A (zh) 2021-05-31 2021-05-31 一种基于变分自编码器和消息传递神经网络的分子图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597729.1A CN113327651A (zh) 2021-05-31 2021-05-31 一种基于变分自编码器和消息传递神经网络的分子图生成方法

Publications (1)

Publication Number Publication Date
CN113327651A true CN113327651A (zh) 2021-08-31

Family

ID=77422631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597729.1A Pending CN113327651A (zh) 2021-05-31 2021-05-31 一种基于变分自编码器和消息传递神经网络的分子图生成方法

Country Status (1)

Country Link
CN (1) CN113327651A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838541A (zh) * 2021-09-29 2021-12-24 脸萌有限公司 设计配体分子的方法和装置
CN114038516A (zh) * 2021-11-25 2022-02-11 中国石油大学(华东) 一种基于变分自编码器的分子生成与优化
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN115966266A (zh) * 2023-01-06 2023-04-14 东南大学 一种基于图神经网络的抗肿瘤分子强化方法
CN116110504A (zh) * 2023-04-12 2023-05-12 烟台国工智能科技有限公司 基于半监督变分自编码器的分子性质预测方法及系统
CN116130036A (zh) * 2023-01-09 2023-05-16 四川大学 一种基于图表示的金属有机框架的逆向设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUSTIN GILMER等: "Neural message passing for quantum chemistry", PROCEEDINGS OF THE 34TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 31 August 2017 (2017-08-31), pages 1263 - 1272 *
QI LIU等: "Constrained Graph Variational Autoencoders for Molecule Design", PROCEEDINGS OF THE 32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, 31 December 2018 (2018-12-31), pages 7806 - 7815 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838541A (zh) * 2021-09-29 2021-12-24 脸萌有限公司 设计配体分子的方法和装置
WO2023055290A3 (zh) * 2021-09-29 2023-06-29 脸萌有限公司 设计配体分子的方法和装置
CN113838541B (zh) * 2021-09-29 2023-10-10 脸萌有限公司 设计配体分子的方法和装置
CN114038516A (zh) * 2021-11-25 2022-02-11 中国石油大学(华东) 一种基于变分自编码器的分子生成与优化
CN114038516B (zh) * 2021-11-25 2024-04-19 中国石油大学(华东) 一种基于变分自编码器的分子生成与优化方法
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN115966266A (zh) * 2023-01-06 2023-04-14 东南大学 一种基于图神经网络的抗肿瘤分子强化方法
CN115966266B (zh) * 2023-01-06 2023-11-17 东南大学 一种基于图神经网络的抗肿瘤分子强化方法
CN116130036A (zh) * 2023-01-09 2023-05-16 四川大学 一种基于图表示的金属有机框架的逆向设计方法
CN116130036B (zh) * 2023-01-09 2024-03-01 四川大学 一种基于图表示的金属有机框架的逆向设计方法
CN116110504A (zh) * 2023-04-12 2023-05-12 烟台国工智能科技有限公司 基于半监督变分自编码器的分子性质预测方法及系统

Similar Documents

Publication Publication Date Title
CN113327651A (zh) 一种基于变分自编码器和消息传递神经网络的分子图生成方法
He et al. AutoML: A survey of the state-of-the-art
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN110970099A (zh) 一种基于正则化变分自动编码器的药物分子生成方法
CN111063398A (zh) 一种基于图贝叶斯优化的分子发现方法
Chen et al. A hybrid fuzzy inference prediction strategy for dynamic multi-objective optimization
Romero-Campero et al. Modular assembly of cell systems biology models using P systems
CN113744799A (zh) 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
CN114511737A (zh) 图像识别域泛化模型的训练方法
Gao et al. Clustering algorithms for detecting functional modules in protein interaction networks
CN117524353B (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
Steeg Neural networks, adaptive optimization, and RNA secondary structure prediction
Singh et al. A variant of EAM to uncover community structure in complex networks
Pollastri et al. Prediction of protein topologies using generalized IOHMMs and RNNs
Dobra et al. Bayesian covariance selection
CN113707234B (zh) 一种基于机器翻译模型的先导化合物成药性优化方法
Vanneschi et al. Heterogeneous cooperative coevolution: strategies of integration between gp and ga
Zhou et al. Hierarchical full-attention neural architecture search based on search space compression
Bhatt et al. SINDy-CRN: Sparse Identification of Chemical Reaction Networks from Data
Yang et al. Learning dynamical systems from data: A simple cross-validation perspective, Part V: Sparse Kernel Flows for 132 chaotic dynamical systems
Xue et al. Fast and unsupervised neural architecture evolution for visual representation learning
CN115428090A (zh) 用于学习生成具有期望特性的化学化合物的系统和方法
Tamagnone et al. Coarse Grained Molecular Dynamics with Normalizing Flows
Zheng et al. Inverse Design of Vitrimeric Polymers by Molecular Dynamics and Generative Modeling
Xiao et al. Drug ADMET Prediction Method Based on Improved Graph Convolution Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination