CN117012304B

CN117012304B - 融合ggnn-gan的深度学习分子生成系统及方法

Info

Publication number: CN117012304B
Application number: CN202311203938.9A
Authority: CN
Inventors: 程曼; 随海燕; 袁洪波; 周焕笛
Original assignee: Heibei Agricultural University
Current assignee: Heibei Agricultural University
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-02-02
Anticipated expiration: 2043-09-18
Also published as: CN117012304A

Abstract

本申请公开了融合GGNN‑GAN的深度学习分子生成系统及方法，包括：数据收集模块、预处理模块和分子生成模块；数据收集模块用于收集初始分子的分子数据，分子数据包括：化学结构、活性和物理性质；预处理模块用于对分子数据进行编码，生成对应的特征矩阵；分子生成模块用于基于特征矩阵，训练GGNN‑GAN分子生成模型，并利用GGNN‑GAN分子生成模型生成新的分子结构。本申请在数据量足够的情况下，生成的分子在有效性、新颖性和唯一性方面得到显著提升，在数据量少的情况下进行训练，可以通过GAN进行数据扩充，解决分子数据较少时的训练不足的问题，从而使生成模型能够生成与原始数据具有相同特点的新分子。

Description

融合GGNN-GAN的深度学习分子生成系统及方法

技术领域

本申请属于化学分子生成技术领域，具体涉及融合GGNN-GAN的深度学习分子生成系统及方法。

背景技术

如何获取所需特性的新型分子是药物发现、化学和材料科学领域所面临的巨大挑战。传统方法主要是依赖现有的分子数据库进行搜索，在此基础上材料科学家和药物化学家们根据已有经验对现有分子进行改进，从而获取新型分子，此方法具有极大的偶然性且严重依赖所从业人员的工作经验。化学空间本质上是离散的，整个分子库搜索空间巨大，数量可达10⁶⁰。现有的分子化合物数据库包含1600多亿个分子，遍历整个分子空间耗时漫长，且难以实现。因此，使用传统方法获取所需新分子，无疑是一个周期长、成本高、失败率高的过程。

计算机辅助设计的出现使得分子生成和优化变得更为简捷，目前常采用高通量筛选和虚拟筛选的方式获取已知分子，但是这种筛选方式是从现有分子数据库中获得尽可能多的起始化合物，而不是具有特定生物活性或是具有所需性质的化合物。因此，虚拟筛选在分子容易合成或虚拟化合物容易获取时表现良好，但是当数据量过于庞大时，其成本也会显著增加。

随着人工智能的发展，深度学习逐渐应用于药物发现、化学和材料科学领域。基于深度学习的分子生成方法无需对化学规则进行明确的编程，就可以生成与原始化合物结构高度相似的化合物，这无疑为先导化合物的生成和优化提供了新的手段，极大加快了分子生成和优化的速度，具有良好的研究与应用前景。目前应用于分子生成的深度学习方法主要包括循环神经网络、自编码器、生成对抗网络、流。

基于RNN的分子生成模型将每个分子的SMILES序列当作一个句子，通过学习训练样本的概率分布，使用语言模型生成新的SIMLES序列，但其存在长距离依赖的问题。基于VAE的分子生成模型利用编码器将分子表示为向量，并由解码器重构该向量，通过对连续潜在空间的分子直接进行编码和解码，从而找到具有所需特性的新分子，其优化的目标是误差的下界，因此基于VAE的模型不够精确。基于Flow的分子生成模型主要任务是学习分子图与其潜在表示之间的可逆映射，但其所需训练计算的成本是GAN的几倍。基于GAN的分子生成模型主要是结合强化学习、自编码器等方式进行分子生成，GAN的生成器和判别器通过博弈的手段来不断的对两个模型进行迭代的优化，二者相互博弈，共同学习从而达到最优。

在分子生成的过程中，已有模型的分子生成多样性效果较差、有效性较低，不适用于分子数量少的情况。因此，目前仍然需要发展新的、在分子数据量少的情况下，模型能够进行充分训练的方法，促进深度学习在新药研发中的应用，为缩短药物研发周期和降低药物研发成本提供有利条件。

发明内容

本申请旨在解决现有技术的不足，提出融合GGNN-GAN的深度学习分子生成系统及方法，通过结合GGNN和GAN，在数据量足够的情况下，使用本申请进行训练，生成的分子在有效性、新颖性和唯一性方面得到显著提升。

为实现上述目的，本申请提供了如下方案：

融合GGNN-GAN的深度学习分子生成系统，包括：数据收集模块、预处理模块和分子生成模块；

所述数据收集模块用于收集初始分子的分子数据，所述分子数据包括：化学结构、活性和物理性质；

所述预处理模块用于对所述分子数据进行编码，生成对应的特征矩阵；

所述分子生成模块用于基于所述特征矩阵，训练GGNN-GAN分子生成模型，并利用所述GGNN-GAN分子生成模型生成新的分子结构。

优选的，所述预处理模块包括：第一转换单元和第二转换单元；

所述第一转换单元用于将所述分子数据的SMILES序列转换为分子图；

所述第二转换单元用于将所述分子图转换为所述特征矩阵，所述特征矩阵包括：节点特征矩阵、边特征矩阵和邻接矩阵。

优选的，所述GGNN-GAN分子生成模型包括：生成器和判别器；

所述生成器用于基于所述特征矩阵对分子结构进行建模和学习，并生成新分子；

所述判别器用于得到所述新分子是所述初始样本的概率，并识别所述新分子是否为所述初始分子，若不是，则标记所述新分子，并将标记后新分子传入至所述生成器中。

优选的，所述生成器包括：信息传递单元、节点更新单元和读取单元；

所述信息传递单元用于基于所述边特正矩阵和所述邻接矩阵计算边消息；

所述节点更新单元用于更新所述节点特征矩阵，得到更新后的节点信息；

所述读取单元用于提取节点的图级别表示，并基于所述图级别表示、所述边消息和所述节点信息进行全局的图读出，得到所述新分子。

优选的，所述图级别表示包括：节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。

优选的，所述判别器包括：第一全连接层、第二全连接层、第三全连接层和第四全连接层；

所述第一全连接层用于将所述新分子的信息映射到1024维的特征空间，得到1024维特征；

所述第二全连接层用于将所述1024维特征映射到512维的特征空间，得到512维特征；

所述第三全连接层用于将所述512维特征映射到256维的特征空间，得到256维特征；

所述第四全连接层用于将所述256维特征映射到1维的特征空间，得到所述新分子是所述初始样本的概率。

优选的，所述判别器还包括函数映射单元；

所述函数映射单元用于将所述概率通过Sigmoid函数映射到0-1的范围内。

本申请还提供了融合GGNN-GAN的深度学习分子生成方法，包括以下步骤：

收集初始分子的分子数据，所述分子数据包括：化学结构、活性和物理性质；

对所述分子数据进行编码，生成对应的特征矩阵；

基于所述特征矩阵，训练GGNN-GAN分子生成模型，并利用所述GGNN-GAN分子生成模型生成新的分子结构。

与现有技术相比，本申请的有益效果为：

本申请通过结合GGNN和GAN，提出了一种新的分子训练方法GGNN-GAN。在数据量足够的情况下，使用本申请进行训练，生成的分子在有效性、新颖性和唯一性方面得到显著提升。在数据量少的情况下进行训练，可以通过GAN进行数据扩充，解决分子数据较少时的训练不足的问题，从而使生成模型能够生成与原始数据具有相同特点的新分子。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的系统结构示意图；

图2为本申请实施例的预处理的工作流程示意图；

图3为本申请实施例的GGNN-GAN模型整体结构示意图；

图4为本申请实施例的生成器结构示意图；

图5为本申请实施例的信息传递单元结构示意图；

图6为本申请实施例的节点更新单元结构示意图；

图7为本申请实施例的读取单元结构示意图；

图8为本申请实施例的判别器结构示意图；

图9为本申请实施例的方法步骤示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

在本实施例中，如图1所示，融合GGNN-GAN的深度学习分子生成系统，包括：数据收集模块、预处理模块和分子生成模块。

数据收集模块用于收集初始分子的分子数据，分子数据包括：化学结构、活性和物理性质等。

预处理模块用于对分子数据进行编码，生成对应的特征矩阵。

预处理模块包括：第一转换单元和第二转换单元；第一转换单元用于将分子数据的SMILES序列转换为分子图；第二转换单元用于将分子图转换为特征矩阵，特征矩阵包括：节点特征矩阵、边特征矩阵和邻接矩阵。

在本实施例中，第一转换单元使用RDKit开源框架将分子的SMILES序列转化为分子图形式，分子图表示了分子中的原子和它们之间的化学键关系。第二转换单元使用RDKit.Chem方法将每个分子图转换为由one-hot编码表示的节点特征矩阵、边特征矩阵和邻接矩阵。节点特征是指每个原子的特征向量，用于表示原子的性质和环境信息。节点特征可以包括原子类型、电荷、氢键供体和受体属性等。边特征是指化学键的特征向量，用于表示化学键的类型和性质。边特征可以包括键的类型(单键、双键、三键等)和键长等。邻接矩阵是一个二维矩阵，用于表示原子之间的连通性。矩阵的每个元素表示两个原子之间是否存在连接，存在则为1，否则为0。邻接矩阵可以通过分子图的连接信息来构建。对于单键和双键，它们在特征矩阵中是等价表示的，因为可以从相应的原子描述符推导出来。通过将分子表示为特征矩阵，可以将分子的结构和性质用计算机可处理的方式进行编码和表示。这种特征矩阵的表示形式在深度学习模型中特别有用，可以用于分子属性预测、反应预测、化合物生成等化学计算任务。预处理的总体工作流程如图2所示。

分子生成模块用于基于特征矩阵，训练GGNN-GAN分子生成模型，并利用GGNN-GAN分子生成模型生成新的分子结构。

GGNN-GAN分子生成模型包括：生成器和判别器；生成器用于基于特征矩阵对分子结构进行建模和学习，并生成新分子；判别器用于得到新分子是初始样本的概率，并识别新分子是否为初始分子，若不是，则标记新分子，并将标记后新分子传入至生成器中。

在本实施例中，生成器分为信息传递、节点更新、读取三个模块，前两个模块用于对分子结构进行建模和学习，读取模块利用分子结构信息生成新的分子。判别器是一个二分类神经网络，通过四个全连接层判断分子是来自训练集还是生成器新生成的分子，并将新生成的分子标记为Fake，传入到生成器中，让生成器继续学习并生成新的分子，生成器和判别器通过对抗学习来反复优化生成器和判别器之间的竞争关系。模型整体结构如图3所示。

生成器如图4所示，包括：信息传递单元、节点更新单元和读取单元。信息传递单元如图5所示，用于基于边特正矩阵和邻接矩阵计算边消息。将邻接矩阵和边特征矩阵导入信息传递单元，通过循环遍历数据集中的边特征种类的数量次，为每个边特征创建一个基于MLP(多层感知机)的消息传递神经网络，用于计算每个边特征产生的消息。首先，将边特征矩阵进行形状变换，使其变为一个三维张量，其中第二个维度表示边特征的数量，接下来，通过将每个边特征与对应的邻居节点特征相乘，得到每个边特征对应的消息，对每个边特征的消息进行非线性变换。最后，将所有边特征产生的消息求和，以生成边消息的表示：Edge_message(100)张量。

节点更新单元如图6所示，用于更新节点特征矩阵，得到更新后的节点信息。将节点特征矩阵导入节点更新单元，使用GRUCell门控循环单元对节点特征矩阵进行更新，最终生成更新后的节点信息Node_message(100)张量。

读取单元如图7所示，用于提取节点的图级别表示，并基于图级别表示、边消息和节点信息进行全局的图读出，得到新分子。图级别表示包括：节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。GraphGather模块从节点的隐藏表示中提取图级别的表示。将信息传递单元和节点更新单元生成的Edge_message(100)、Node_message(100)和GraphGather模块提取的信息导入GlobalReadout模块，通过两个MLP层来进行全局的图读出操作，其中第一个MLP层隐藏层的维度500、深度4，第二个MLP层隐藏层的维度500、深度4、每个节点的附加特征的长度为4，通过节点和图级别的表示生成图级别的输出Graph_output(625)张量，即生成器生成的新分子信息。

判别器如图8所示，包括：第一全连接层、第二全连接层、第三全连接层和第四全连接层。判别器将生成器生成的分子信息Graph_output(625)张量传递给顺序模型进行前向传播，计算损失，并通过梯度下降算法更新判别器的参数。

第一全连接层用于将新分子的信息映射到1024维的特征空间，得到1024维特征；第二全连接层用于将1024维特征映射到512维的特征空间，得到512维特征；第三全连接层用于将512维特征映射到256维的特征空间，得到256维特征；第四全连接层用于将256维特征映射到1维的特征空间，输出一个标量valid或fake，得到新分子是初始样本的概率。判别器还包括函数映射单元；函数映射单元用于将概率通过Sigmoid函数映射到0-1的范围内，表示分子是来自训练集还是生成器新生成的分子。

实施例二

在本实施例中，如图9所示，融合GGNN-GAN的深度学习分子生成方法，包括以下步骤：

S1.收集初始分子的分子数据，分子数据包括：化学结构、活性和物理性质等。

S2.对分子数据进行编码，生成对应的特征矩阵。

将分子数据的SMILES序列转换为分子图；将分子图转换为特征矩阵，特征矩阵包括：节点特征矩阵、边特征矩阵和邻接矩阵。

在本实施例中，使用RDKit开源框架将分子的SMILES序列转化为分子图形式，分子图表示了分子中的原子和它们之间的化学键关系。使用RDKit.Chem方法将每个分子图转换为由one-hot编码表示的节点特征矩阵、边特征矩阵和邻接矩阵。节点特征是指每个原子的特征向量，用于表示原子的性质和环境信息。节点特征可以包括原子类型、电荷、氢键供体和受体属性等。边特征是指化学键的特征向量，用于表示化学键的类型和性质。边特征可以包括键的类型(单键、双键、三键等)和键长等。邻接矩阵是一个二维矩阵，用于表示原子之间的连通性。矩阵的每个元素表示两个原子之间是否存在连接，存在则为1，否则为0。邻接矩阵可以通过分子图的连接信息来构建。对于单键和双键，它们在特征矩阵中是等价表示的，因为可以从相应的原子描述符推导出来。通过将分子表示为特征矩阵，可以将分子的结构和性质用计算机可处理的方式进行编码和表示。这种特征矩阵的表示形式在深度学习模型中特别有用，可以用于分子属性预测、反应预测、化合物生成等化学计算任务。预处理的总体工作流程如图2所示

S3.基于特征矩阵，训练GGNN-GAN分子生成模型，并利用GGNN-GAN分子生成模型生成新的分子结构。

生成器包括：信息传递单元、节点更新单元和读取单元。信息传递单元用于基于边特正矩阵和邻接矩阵计算边消息。将邻接矩阵和边特征矩阵导入信息传递单元，通过循环遍历数据集中的边特征种类的数量次，为每个边特征创建一个基于MLP(多层感知机)的消息传递神经网络，用于计算每个边特征产生的消息。首先，将边特征矩阵进行形状变换，使其变为一个三维张量，其中第二个维度表示边特征的数量，接下来，通过将每个边特征与对应的邻居节点特征相乘，得到每个边特征对应的消息，对每个边特征的消息进行非线性变换。最后，将所有边特征产生的消息求和，以生成边消息的表示：Edge_message(100)张量。

节点更新单元用于更新节点特征矩阵，得到更新后的节点信息。将节点特征矩阵导入节点更新单元，使用GRUCell门控循环单元对节点特征矩阵进行更新，最终生成更新后的节点信息Node_message(100)张量。

读取单元用于提取节点的图级别表示，并基于图级别表示、边消息和节点信息进行全局的图读出，得到新分子。图级别表示包括：节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。GraphGather模块从节点的隐藏表示中提取图级别的表示。将信息传递单元和节点更新单元生成的Edge_message(100)、Node_message(100)和GraphGather模块提取的信息导入GlobalReadout模块，通过两个MLP层来进行全局的图读出操作，其中第一个MLP层隐藏层的维度500、深度4，第二个MLP层隐藏层的维度500、深度4、每个节点的附加特征的长度为4，通过节点和图级别的表示生成图级别的输出Graph_output(625)张量，即生成器生成的新分子信息。

判别器包括：第一全连接层、第二全连接层、第三全连接层和第四全连接层。判别器将生成器生成的分子信息Graph_output(625)张量传递给顺序模型进行前向传播，计算损失，并通过梯度下降算法更新判别器的参数。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.融合GGNN-GAN的深度学习分子生成系统，其特征在于，包括：数据收集模块、预处理模块和分子生成模块；

所述分子生成模块用于基于所述特征矩阵，训练GGNN-GAN分子生成模型，并利用所述GGNN-GAN分子生成模型生成新的分子结构；

所述预处理模块包括：第一转换单元和第二转换单元；

所述第二转换单元用于将所述分子图转换为所述特征矩阵，所述特征矩阵包括：节点特征矩阵、边特征矩阵和邻接矩阵；

所述GGNN-GAN分子生成模型包括：生成器和判别器；

所述判别器用于得到所述新分子是初始样本的概率，并识别所述新分子是否为所述初始分子，若不是，则标记所述新分子，并将标记后新分子传入至所述生成器中；

所述生成器包括：信息传递单元、节点更新单元和读取单元；

所述读取单元用于提取节点的图级别表示，并基于所述图级别表示、所述边消息和所述节点信息进行全局的图读出，得到所述新分子；

所述判别器包括：第一全连接层、第二全连接层、第三全连接层和第四全连接层；

2.根据权利要求1所述融合GGNN-GAN的深度学习分子生成系统，其特征在于，所述图级别表示包括：节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。

3.根据权利要求1所述融合GGNN-GAN的深度学习分子生成系统，其特征在于，所述判别器还包括函数映射单元；

4.融合GGNN-GAN的深度学习分子生成方法，其特征在于，包括以下步骤：

对所述分子数据进行编码，生成对应的特征矩阵；