CN113327651A

CN113327651A - 一种基于变分自编码器和消息传递神经网络的分子图生成方法

Info

Publication number: CN113327651A
Application number: CN202110597729.1A
Authority: CN
Inventors: 裴文江; 蒋冰越; 夏亦犁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-31

Abstract

本发明公开了一种基于变分自编码器和消息传递神经网络的分子图生成方法，以进行分子生成和分子目标特性优化；本发明采用了消息传递神经网络构建到变分自编码器的编码器和解码器中，进一步减少了训练过程的运行时间和占用内存；另外，通过构造变分自编码器的潜在空间，以允许优化分子性质；在QM9化学数据库上的分子生成实验中，该模型能够生成100％有效的化合物，并且新颖率和唯一率也很高；在QM9化学数据库上的目标优化实验中，能够进一步优化目标特性。

Description

一种基于变分自编码器和消息传递神经网络的分子图生成方法

技术领域

本发明涉及分子图生成技术领域，特别是涉及一种基于变分自编码器和消息传递神经网络的分子图生成方法。

背景技术

在现代社会，材料化学中新分子探索已经成为热门话题，而材料创新是许多近期技术进步的关键驱动力。材料创新是许多近期技术进步的关键驱动力。从清洁能源到航空航天业或药物开发，化学和材料科学领域的研究一直在不断发展，以开发出具有新颖用途、更低成本和更好性能的化合物。

在最高的抽象层次上，分子的设计被表述为一个组合优化问题，以便在广阔的化学空间中找到最佳解决方案。药物发现和材料科学中的许多重要问题都是基于设计具有特定期望性质的分子结构的原则。然而，由于化学空间的巨大，这仍然是一个具有挑战性的任务。一个药物化学家，或者说一个全新的分子设计软件，都面临一个几乎无限的搜索空间，这个搜索空间是巨大的，由于它的离散性，在这个空间中寻找目标化合物分子是非常困难的。

尽管在高通量筛选技术上取得了巨大的进步，但在如此大的空间中进行穷举搜索是不可能的。全新设计过程中的导航不是系统地构建和评估每个个体，而是依赖于局部优化的原则，这并不一定会导致全局最优解。

发明内容

有鉴于此，本发明的目的在于提供一种基于变分自编码器和消息传递神经网络的分子图生成方法，用以完成分子生成任务以及分子目标优化任务。

为了实现上述目的，本发明采用如下技术方案：

一种基于变分自编码器和消息传递神经网络的分子图生成方法，包括如下步骤：

步骤S1、构建药物分子库；

步骤S2、利用变分自编码器框架，建立包括编码器和解码器的药物分子生成模型；

步骤S3、将所述药物分子库输入至所述药物分子生成模型中进行训练，得到训练好的药物分子生成模型；

步骤S4、利用步骤S3中训练好的药物分子生成模型，执行分子生成流程，生成候选分子；

步骤S5、对步骤S4中得到的候选分子进行性质检测。

进一步的，所述步骤S1具体包括：获取QM9数据集，从该数据集中获取多种已知药物分子的信息，通过该信息建立所述药物分子库，该系统包括结构信息和理化信息，其中，所述药物分子表示为图数据，所述药物分子的结构信息包括图中的节点和边，所述理化信息包括分子的脂水分配系数的对数值、类药性和可合成性。

进一步的，所述步骤S2具体包括：

步骤S201、搭建药物分子生成过程的基本模型，即变分自编码器，通过学习真实数据和隐向量的联合概率分布实现分子生成，具体包括：

构建药物分子生成模型p_θ(G|z)，采用图数据表示药物分子，在变分推断中，利用变分后验q_φ(z|G)来估计真实后验，最大化药物分子生成模型p_θ(G|z)的目标函数，表达式为：

公式(1)中，

为药物分子生成模型p_θ(G|z)的目标函数，-D_KL(q_φ(z|G)||p_θ(z))表示KL损失的相反数，

表示重建损失的相反数，G为表示真实药物分子的图数据，z为G通过编码器编码得到的隐向量，p_θ(G|z)为药物分子生成模型，q_φ(z|G)为变分后验，下标ELBO表明该目标函数是证据因子的下界；D_KL为KL散度，p_θ(z)为先验分布，φ为解码器的参数，θ为编码器的参数，

表示关于概率分布q_φ(z|G)的期望；

步骤S202、设计并实现基于图数据结构的深度生成模型即药物分子生成模型；设计基于图神经网络的编码器和基于图数据结构解码器，建立基于图数据结构的深度生成模型即药物分子生成模型；药物分子生成模型包括编码器和解码器，具体包括：

设S是需要优化的药物分子性质，将药物分子性质关于分布p_θ(G|z)的期望作为正则化项，表达式为：

公式(2)中，S_G表示图数据G对应的药物分子的待优化的性质S，S_G的具体表达式为：

公式(3)中，O表示所有子图模式的集合，no是模式o在图G中出现的次数，co是模式o每次出现对于该性质的贡献；结合公式(2)和公式(3)得到公式(4)：

公式(4)中，

表示性质S关于概率分布

的期望，

是模式o出现的概率。

进一步的，所述步骤S3具体包括：

构建所述药物分子生成模型的目标函数，表达式为：

公式(5)中，

为性质正则化损失，采用蒙特卡洛估计来计算

的值，该估计值可微，然后采用基于梯度下降的学习算法来求解；

假设从分布

中采样得到o^(m)且令o^(m)＝(V^(m),E^(m))，表示为以下公式：

公式(6)中，

表示模式o^(m)出现的概率；V^(m)和E^(m)分别是采样所得模式o^(m)中的原子集合和边集合，m为关于样本的索引，p_it和p_ijr分别表示it和ijr对应的神经元值。

进一步的，所述步骤S4具体包括：

步骤S401、节点初始化：在一组最初未连接的节点中，将节点状态

与每个节点v相关联，z_v是从d维标准正态分布

中采样得出的采样值，并且

是级联[z_v,τ_v]，其中τ_v是表征节点类型的可解释的独热向量，τ_v从可学习映射τ_v～f(z_v)的Softmax输出中采样得到，其中f是一个从100维潜在空间到节点类型中某个类的线性分类器的神经网络；从这些节点级的变量

可以计算得出全局表示H^t，而全局表示初始化值H_init就是t＝0时的所有节点的平均表示。

步骤S402、边选择和边标记：首先从队列中选择焦点节点v，进行函数展开，然后选择从v到u的边

其中，边标记l在箭头上方，u表示为非焦点节点；

对于每个非焦点节点u，构建一个特征向量

其中，d_v,u表示v和u之间的图距离，

为t时刻节点v的节点状态，

为t时刻节点u的节点状态；H_init表示t＝0时的所有节点的平均表示，H^t表示t时刻的所有节点的平均表示。

产生候选边的分布，表达式为：

步骤S403、节点更新：使用消息传递神经网络来更新图中每个节点的隐藏状态，具体包括消息传递阶段和读出阶段；

在消息传递阶段运行T个时间步长，由消息函数M_t和顶点更新函数U_t定义，在消息传递阶段，根据消息

更新图中每个节点的隐藏状态

表达式为：

公式(8)中，e_vw表示节点v和节点w之间边的状态，N(v)表示节点v的所有邻居节点的集合。

在读出阶段使用读出函数R计算整个图的特征向量，表达式为：

步骤S404、向节点添加边，直到选择到停止节点的边；

步骤S405、在选择到停止节点的边后，焦点节点失去焦点并变为关闭，从焦点队列中选择下一个焦点节点，边生成仍在继续，直到队列为空，没有新的候选焦点节点。

进一步的，所述步骤S5具体包括：对生成的候选药物分子进行药物分子性质检测和药物相似性QED检测。

本发明的有益效果是：

在分子生成任务中，本发明生成的分子的化学指标能够基本匹配溶解度上的训练数据集QM9的分布，倾向于集中分布，而在分子量上倾向于生成大分子量的分子，这使得本发明生成分子的唯一率较高；另外，本发明生成分子的有效率和新颖率指标均十分优异；在目标特性优化任务中，本发明可以生成高药物相似性QED的分子，优化性能具有较大的优势。

附图说明

图1为基于变分自编码器和消息传递神经网络的分子图生成模型的流程框图。

图2为基于变分自编码器和消息传递神经网络的分子图生成模型示意图。

图3为基于变分自编码器和消息传递神经网络的分子图生成模型的生成流程。

图4为目标特性优化任务中生成分子的前3个最高QED得分。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1-图4，本实施例提供一种基于变分自编码器和消息传递神经网络的分子图生成方法，在该方法中，本实施例提出基于深度生成模型的分子生成模型，涉及计算机人工智能和医药分子设计的交叉领域，其核心思想是将图神经网络和性质正则化同时引入深度生成模型，能够有效利用图表示能够捕捉分子内在相似性的特点，解决了分子性质作为优化目标高度复杂而不可微的问题。

如图1所示，该方法包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。

图2所示为本发明具体实施时构建的基于深度生成模型的药物分子生成模型的结构示意图，其中，图2的上半部分为训练阶段的数据流通路径，真实药物分子A经过编码器编码后得到变分后验概率分布q_φ(z|G)，此分布再经过解码之后得到解码分子B。

在训练阶段我们的目标是使得解码得到的分子B和输入的分子A相同，同时迫使q_φ(z|G)与p_θ(z)具有相同的分布。图2的下半部分为生成阶段的数据流通路径，在解码器训练完成之后，为了生成有效的药物分子，从先验分布中采样得到分子的隐向量表示，然后将其送入解码器即可生成我们想要的分子C(即候选药物分子)。

该方法具体包括如下步骤：

步骤1构建有效药物分子库。

通过有针对性地收集QM9数据集中药物分子的信息，即真实数据，建立用于药物分子生成模型训练和测试的分子信息库，QM9分子信息库包含了一些已知药物分子的结构信息(药物分子表示为图数据，其结构信息包括图中的节点和边)，和用于测试的药物分子的理化信息，例如分子的脂水分配系数的对数值(logP)、类药性、可合成性等。

步骤2搭建药物分子生成模型。

本方法是基于深度生成模型的一种分子图生成方法，目标是学习一个药物分子生成模型p_θ(G|z)。在变分推断中，利用一个变分后验q_φ(z|G)来估计真实后验，根据变分推断的原理，最大化如下目标函数：

上式中，

为分子生成模型p_θ(G|z)的目标函数；-D_KL(q_φ(z|G)||p_θ(z))表示KL损失的相反数；

表示重建损失的相反数；G为表示真实药物分子的图数据；z为G通过编码器编码得到的隐向量；p_θ(G|z)为药物分子生成模型；q_φ(z|G)为变分后验；下标ELBO表明该目标函数是证据因子的下界；D_KL是KL散度；p_θ(z)为先验分布；φ为解码器的参数；θ为编码器的参数；

表示关于概率分布q_φ(z|G)的期望；

步骤3设计并实现基于图数据结构的深度生成模型，作为药物分子生成模型

药物分子生成模型包括编码器和解码器，可分别采用图神经网络和全连接神经网络。具体地：

在公式(1)中，图数据G用于表示真实分子，z为G通过编码器编码得到的隐向量。编码器输出一个矩阵

和一个张量

为要生成分子包含的最大原子数，T为原子的类型数，R为边的类型数，矩阵中的行

为节点i的类型的概率分布，

是节点i和节点j之间边的类型的概率分布；

从

中采样得到一个分子图G＝(A,X)，其中A由

采样得到，X由

采样得到；

编码器的结构采用图神经网络，解码器则采用多层全连接神经网络。

步骤4设计并实现分子性质目标正则化方法，使得模型能够生成具有特定性质的分子；

设S是需要优化的分子性质(如分子的脂水分配系数的对数值(logP)、类药性、可合成性等性质)，可以将它关于分布p_θ(G|z)的期望作为正则化项。该期望可以写成式

其中，S_G表示图数据G对应的药物分子的待优化的性质S，表示为式(3)：

其中，O是所有子图模式的集合，no是模式o在图G中出现的次数，co是模式o每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4)：

式(4)中，

表示性质S关于概率分布

的期望，

是模式o出现的概率。

步骤5对构建的药物分子生成模型进行训练。

为训练所设计的药物分子生成模型，需要依据合理的目标函数。本发明中，药物分子生成模型需最大化如下目标函数L，表达式为：

其中，

为性质正则化损失；采用蒙特卡洛估计来计算

的值，该估计值可微，可采用基于梯度下降的学习算法来求解。假设从分布

中采样得到o^(m)且令o^(m)＝(V^(m),E^(m))，表示为以下公式：

其中，

步骤6利用训练好的药物分子生成模型，执行分子生成流程，生成候选分子。

(1)节点初始化：在一组最初未连接的节点中，将节点状态

与每个节点v相关联。z_v从d维标准正态分布

中得出，并且

是级联[z_v,τ_v]，其中τ_v是表征节点类型的可解释的独热向量。τ_v从可学习映射τ_v～f(z_v)的Softmax输出中采样得到，其中f是神经网络，从100维潜在空间到节点类型中某个类的线性分类器。从这些节点级的变量，可以计算全局表示H^t(在生成步骤t的连接分量中的节点的平均表示)，并且H_init(t＝0时的所有节点的平均表示)。除了N个工作节点之外，还将特殊的“停止节点”初始化为学习表示

用于算法终止。

(2)边选择和边标记：首先从队列中选择焦点节点v。函数展开，然后选择从v到u的边

边标记l在箭头上方。对于每个非焦点节点u，构建一个特征向量

其中d_v,u表示v和u之间的图距离。随后产生候选边的分布

(3)节点更新：使用消息传递神经网络来更新图中每个节点的隐藏状态。分为消息传递阶段和读出阶段。消息传递阶段运行T个时间步长，由消息函数M_t和顶点更新函数U_t定义。在消息传递阶段，根据消息

更新图中每个节点的隐藏状态

读出阶段使用某个读出函数R计算整个图的特征向量，即

(4)向节点添加边，直到选择到停止节点的边。

(5)在选择到停止节点的边后，焦点节点失去焦点并变为“关闭”，从焦点队列中选择下一个焦点节点。边生成仍在继续，直到队列为空，没有新的候选焦点节点。

以上分子生成流程如图3所示。

步骤7性质检测

对药物分子生成模型所生成的候选分子，进行性质检测。即根据分子结构计算并预测相应的分子性质，并将所得性质与设计要求做对比。具体地，一般为了得到有效的药物分子，对生成的药物分子的脂水分配系数的对数值(logP)、类药性进行检测，判断药物分子的生物利用度。

表1、分子生成任务结果对比

模型	有效率％	新颖率％	唯一率％
				GrammarVAE	20.69	15.2	9.3
典型图生成模型	89.2	95.52	96.41
				MGAN	99.8	93	2.3
MVAE	100	98.1	98.6

从表1可以看出，本实施例提出的模型在四种模型中具有较大的优势。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于变分自编码器和消息传递神经网络的分子图生成方法，其特征在于，包括如下步骤：

步骤S1、构建药物分子库；

步骤S5、对步骤S4中得到的候选分子进行性质检测。

2.根据权利要求1所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法，其特征在于，所述步骤S1具体包括：获取QM9数据集，从该数据集中获取多种已知药物分子的信息，通过该信息建立所述药物分子库，该系统包括结构信息和理化信息，其中，所述药物分子表示为图数据，所述药物分子的结构信息包括图中的节点和边，所述理化信息包括分子的脂水分配系数的对数值、类药性和可合成性。

3.根据权利要求2所述的一种基于变分自编码器和消息传递神经网络的分子图生成方法，其特征在于，所述步骤S2具体包括：