CN112397157A

CN112397157A - 基于子图-变分自编码结构的分子生成方法

Info

Publication number: CN112397157A
Application number: CN202011170128.4A
Authority: CN
Inventors: 李成涛; 柳俊宏
Original assignee: Star Pharmaceutical Technology Beijing Co ltd
Current assignee: Star Pharmaceutical Technology Beijing Co ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-23
Anticipated expiration: 2040-10-28
Also published as: CN112397157B

Abstract

一种基于子图‑变分自编码结构的分子生成方法，首先挖掘训练集中所有分子的频繁子图集，再通过基于统计的计数阈值与药学性质筛选频繁子图，得到满足条件的分子子图总集S^*；对训练集中的每个分子G进行图分解，得到相应的分子子图集合S；将分子集S输入编码器进行编码，得到相应的隐空间向量Z；最后将Z输入解码器进行解码，得到重构的分子G′，本发明克服了传统逐原子生成方法带来的化学特性缺失和难以合成等缺点，通过子结构的应用保证了分子的某些化学性质，进而生成化学性质稳定并且易于合成的分子结构，为新型药物小分子的发现与设计带来极大的便利，降低了相关工作人员对领域知识的依赖，提高了新型药物设计和开发的效率，缩短研发周。

Description

基于子图-变分自编码结构的分子生成方法

技术领域

本发明属于人工智能药物研发领域，具体涉及基于分子子图-自编码结构的分子生成与优化的药物研发领域。

背景技术

在药物分子生成与优化领域中，由于分子间排列组合众多，形成的分子空间过于庞大，通过人工自定义规则来筛选的空间有限，如何利用已有分子数据，自动化地找到与目标分子最相关的分子或分子空间至关重要。传统的方法通常是对已知分子和目标分子的化学性质进行分析，并人工设计新的分子结构。这种方法效率非常低，而且这个过程非常依赖于化学家的领域知识和经验，因此有人提出基于机器学习的方法自动生成新分子；常用的方法是将分子表示为SMILES(简化分子线性输入规范)字符串，然后训练图神经网络模型或者是RNN模型来自动生成新分子结构。

目前常见的自动生成新分子的模型主要是先把分子表示为SMILES形式，再利用常用的时间序列模型或自然语言处理模型来生成SMILES序列，最后再转成对应的分子。然而分子的SMILES表示并不能很好的刻画分子之间的相似性，两种化学结构高度相似的分子可能会被编码成两串相差甚远的SMILES字符。并且，SMILES序列生成模型中，并不能很好的保持有效的化学结构。

在最新的研究中，有人提出基于Graph的分子生成模型，如图1所示，就是将分子表示为一个图，然后以图作为输入数据，生成一个新的图，新图就是新生成的分子。这种方法通常是以原子为单位不断进行生成，最后形成一个完整的分子图。这种基于图的方法生成的分子虽然在某些化学特性比SMILES具有更好的表达性，但是由于整个图是基于单个原子逐步产生的，因此在生成的过程中，并没有考虑一些全局的化学结构，因此得到的分子通常在某些化学特性上并不能满足实际需求。

发明内容

发明目的:通过子图的方式保持并传递相关的化学结构与特性，再通过隐变量空间发掘更多潜在的分子结构，进而进行自动组合，生成多样化的分子。

技术方案；本发明基于VAE框架提出了一种基于分子子图-自编码结构的分子生成与优化方法，具体流程如图1所示，主要过程如下：

首先基于gSpan算法挖掘训练集中所有分子(没有任何特别的功能)的频繁子图集(图1-b),再通过基于统计的计数阈值与药学性质筛选频繁子图，得到满足条件的分子子图总集S*(图1-c)；

其次对训练集中的每个分子G进行图分解，得到相应的分子子图集合S(图1-d)；

再次将分子集S输入multiscale VAE的编码器进行编码，得到相应的隐空间向量z(图1-3)；

最后将z输入multiscale VAE的解码器进行解码，得到重构的分子G′(图1-4)；

通过上述过程联合训练编码器和解码器，当训练完成后，可先利用编码器将输入分子映射到隐空间中，再通过对隐变量的解码来生成所需要的分子。其中multiscale VAE如图2所示，分别包含原子层的编码解码与子图层的编码解码。

技术效果：本发明创新性地提出了基于分子子图-自编码结构的分子生成方法，克服了传统逐原子生成方法带来的化学特性缺失和难以合成等缺点，通过子结构的应用保证了分子的某些化学性质，进而生成化学性质稳定并且易于合成的分子结构，为新型药物小分子的发现与设计带来极大的便利，降低了相关工作人员对领域知识的依赖，提高了新型药物设计和开发的效率，缩短研发周期，具有较高的实用价值。

附图说明

图1是本发明子图-自编码分子生成模型流程图；

图2是本发明multiscale VAE编码解码。

具体实施方式：

发明原理：为了生成具备某种或者某几种指定化学特性的全新药物分子，并且在实际中是可以合成的，本发明提出了一种基于子图-变分自编码结构的分子生成方法，即首先通过gSpan算法(一种基于图模式搜索的生成频繁子图集的算法)获取训练集分子中的所有频繁子图集，筛选满足条件的子图作为分子子图的总集，然后将分子分割为环或频繁子图集，再利用多尺度变分自编码模型(multiscale VAE(变分自动编码器))重建原分子图。我们通过子图的方式保持并传递相关的化学结构与特性，再通过隐变量空间发掘更多潜在的分子结构，进而进行自动组合，生成多样化的分子。

基于本文提出的基于分子子图-变分自编码器的分子生成方法生成全新药物分子的具体流程如下：

生成分子子图总集

(1)设置频繁度k，利用gSpan算法将训练集中的分子生成频繁子图集；

(2)用随机森林算法训练特定化学药性检测器R_i；

(3)筛选频繁子图集：用上述检测器R_i检测(1)所得频繁子图集，筛选大于一定阈值的频繁子集作为分子子图总集。

1.分子分解成子图集

首先利用RDKit(开源的化学工具包)自带的相关函数找到分子中的环，然后基于分子子图总集，根据子图大小，按照后项搜索匹配原则，从较大的子图开始依次分割原分子。

2.训练多尺度变分自编码器multiscale VAE

这里我们选用反馈神经网络GRU表示图网络中的节点传播，用多层全连接网络MLP表示原子到子图的聚合。

(1)原子层分子图：u,v表示原子，{e(au)},{e(buv)}分别表示所有以原子为顶点的集合与以原子与原子相连为边的集合。

(2)子图层分子图：Si表示第i个子图,fSi表示第子图Si代表的顶点，dij表示Si到Sj的连接。

(3)隐变量：

(4)预测下一个添加的子图St：

(5)预测St添加到Sk的方式：

p_M＝softmax(h_M·z_G)

其中1-3为multiscale VAE编码过程，4-5为multiscale VAE解码过程，损失函数为

其中Q(z|G)是均值、方差与G相似的正态分布，P(G|z)表示隐变量解码时的损失。注意在解码过程5中原分子重建时我们有原始分子图，故训练过程中存在真实的标签信息。

4.生成新的分子

从隐空间进行随机采样，基于multiscale VAE的解码器，生成新的分子；

以上实施例进一步说明本发明的内容，但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改或替换，均属于本发明的范围。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。