CN110534164A

CN110534164A - 基于深度学习的药物分子生成方法

Info

Publication number: CN110534164A
Application number: CN201910818097.XA
Authority: CN
Inventors: 邓代国; 洪晓彬; 雷曾荣; 艾海涛
Original assignee: Guangzhou Fermizi Technology Co Ltd
Current assignee: Guangzhou Fermizi Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2019-12-03

Abstract

本发明是一种基于深度学习的药物分子生成方法，采用循环神经网络作为学习和生成药物分子的神经网络模型。该方法通过预训练阶段学习已知的类药分子的语法和特征，得到预训练模型；通过迁移训练阶段，使用预训练模型，学习某个具体靶点的药物分子的特征，得到迁移训练模型；通过生成阶段，利用迁移训练模型生成分子数据，这些生成的分子数据与迁移学习学习的分子数据，具备类似的活性、类药性、可合成性，同时这些生成的分子数据具有大量新的分子和新的骨架。

Description

基于深度学习的药物分子生成方法

技术领域

本发明属于药物分子领域，特别涉及基于深度学习的药物分子生成方法。

背景技术

药物是用以预防、治疗及诊断疾病的物质。在理论上，药物是指凡能影响机体器官生理功能及细胞代谢活动的化学物质都属于药物的范畴。

在公告号CN109741798A，名称为“有机分子的立体异构全集自动化生成方法”的中国发明专利中，公开了一种有机分子的立体异构全集自动化生成方法，（1）将输入分子切分成一组片段；（2）用得到的异构片段到片段模板库中匹配片段模板；（3）根据片段模板信息生成出对应片段的所有异构；（4）遍历所有的异构片段及其位点，将步骤（1）中断的键两端的片段，按断键原子的所有可能的位点进行组装，得到所有的立体异构；如果需要过滤，则可以按照指定的过滤规则进行过滤。本发明可以很方便的描述相似片段的立体异构，并大量减少片段数量，极大地降低片段库的构建难度。分片段，再遍历片段的所有立体异构，然后根据位点组合拼装，可以容易地生成一个分子的所有立体异构。

以上公开的专利通过遍历所有的异构片段及其位点，按断键原子的所有可能的位点进行组装，得到所有的立体异构，再遍历片段的所有立体异构，然后根据位点组合拼装，生成一个分子的所有立体异构，但是以上立体异构的获得过于复杂，成本较高，并不利于新药物的发现和研发。

目前药物研发中，新药分子的发现主要有两种技术，高通量药物筛选(HTS)和基于片段的药物设计(FBDD)。HTS是一种利用已有的化合物进行的体外的实验筛选，而FBDD是挑选有利的片段组合或延伸得到新药物分子，获得高活性的候选药物；以上两种方法均存在盲目性大、生物实验次数较多、成本大、对于部分药物靶点很难筛选到理想的化合物、命中化合物的类药性较差的缺点。

发明内容

为解决上述问题，本发明的目的在于提供一种不需要具体的生物实验、高效、低成本的基于深度学习的药物分子生成方法。

本发明的另一个目的在于提供可以生成类药性好、可合成性好、具有指定靶点的活性的、有新的骨架的新分子的基于深度学习的药物分子生成方法。

为实现上述目的，本发明的技术方案如下。

一种基于深度学习的药物分子生成方法，其特征在于，该方法的具体操作步骤如下：

S1：通过预训练阶段学习已知的类药分子的语法和特征，得到预训练模型；

S2：通过迁移训练阶段，使用预训练模型，学习某个具体靶点的药物分子的特征，得到迁移训练模型；

S3：通过生成阶段，利用迁移训练模型生成分子数据。

该方法通过预训练阶段学习已知的类药分子的语法和特征，得到预训练模型；通过迁移训练阶段，使用预训练模型，学习某个具体靶点的药物分子的特征，得到迁移训练模型；通过生成阶段，利用迁移训练模型生成分子数据，这些生成的分子数据与迁移学习学习的分子数据，具备类似的活性、类药性、可合成性，同时这些生成的分子数据具有大量新的分子和新的骨架。

进一步地，所述步骤S1具体为：采用SMILES(简化分子线性输入规范)格式表示分子，SMILES是一种用ASCII字符串明确描述已知的分子结构的字符序列；获取已知各种靶点的药物分子作为预训练数据；对字符序列进行数据编码过滤，生成适合循环神经网络输入的整数序列；将数据编码过滤后的数据输入循环神经网络进行训练；手动调整每次训练的超参数（学习率，训练步数），保留交叉熵损失函数值最小的训练模型；保留多次训练过程中较佳的模型作为预训练模型。通过ASCII字符串描述分子的结构，保证分子对应的字符序列的唯一性。通过将多种靶点的药物分子作为训练模型的预训练数据为循环神经网络的学习提供学习语法和特征，保证循环神经网络学习过程中学习的全面性和准确性，数据编码过滤包括分子的SMILES语句拆分，并根据字母表进行编码，转换成二维矩阵形式的数据，同时把分子的SMILES长度超过一定数量的分子进行剔除，以满足循环神经网络训练的输入。通过手动对每次训练过程中模型超参数的不断调节和优化，使训练模型能够达到最优的学习效果，其中模型超参数包括学习率，训练步数等，通过该训练模型产生的数据与已知的分子的相关特性进行比对，即保留交叉熵损失函数值最小的训练模型，以判断该训练模型是否能够达到对分子的基本特征和语法的学习。通过多个靶点分子信息的选取、多次训练学习，保留较佳的训练模型作为预训练模型。

进一步地，所述步骤S2具体为：根据需要，读取某个靶点药物分子作为迁移训练数据；选取预训练阶段筛选出的较佳的循环神经网络的预训练模型；将数据编码过滤后的迁移训练数据输入循环神经网络进行训练；手动调整每次训练的超参数，保留交叉熵损失函数值最小的训练模型；保存最好的循环神经网络的迁移训练模型。通过在预训练模型启动过程中对模型超参数的调节，使该迁移训练模型的效果达到最佳。

进一步地，所述步骤S3具体为：运行迁移训练模型，批量生成整数序列的分子数据；对批量生成的整数序列分子数据依次进行数据反编码和分子数据标准化；对标准化后的分子数据，过滤无效分子和去除重复分子；当生成的分子数量达到预先设定的分子数量时，保存生成的分子数据。通过将迁移训练数据输入到迁移训练模型中，获得期望的分子数据信息，生成阶段产生的分子数据涉及未知的分子数据，即为新的分子。通过对生成的分子数据库进行数据反编码和分子数据标准化确保生成的字符序列的唯一性，保证生成的分子为新的分子。

进一步地，所述循环神经网络包括Embedding层、GRU层、Dense层、Attention层和Softmax函数，所述整数序列作为Embedding层的输入，所述Embedding层的输出作为GRU层的输入，所述GRU层的输出作为Attention层的输入、所述Attention层的输出作为Dense层的输入，所述Dense层的输出作为Softmax函数的输入，其中Embedding层、GRU层、Dense层、Attention层和Softmax函数依次循环执行。其中：Embedding层用于把分子的整数序列的每一个整数转换成向量，变成向量序列。GRU是一种常见的循环神经网络的循环单元，这里采用了叠加了两层的GRU。Dense层为全连接层，每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。Attention层：注意力层，计算每次循环的状态的权重，自动分配不同的权重系数。

进一步地，所述GRU设计为两层，两层所述GRU的输入输出依次连接。GRU设计为两层确保训练模型能够更准确和完善。

进一步地，所述模型参数包括学习率、训练步数。通过对学习率、训练步数的调节保证训练模型能够更准确和完善。

进一步地，所述数据编码过滤原则包括将分子的SMILES语句拆分，根据字母表进行编码，转换成二维矩阵形式的数据，同时分子的SMILES长度设置为136。通过对分子的SMILES语句拆分及对分子的SMILES长度设置为136，确保分子的SMILES语句能够作为循环神经网络的输入的字符序列，同时确保分子对应的字符序列的唯一性。

进一步地，所述预训练数据库包括ChEMBL数据库，ChEMBL数据库为已知有活性的具有类药性的分子数据库。

本发明是一种基于深度学习的药物分子生成方法，其特征在于，该方法的具体操作步骤如下：

S3：通过生成阶段，利用迁移训练模型生成分子数据。

附图说明

图1是本发明的基于深度学习的药物分子生成方法的预训练阶段的流程图。

图2是本发明的基于深度学习的药物分子生成方法的迁移训练阶段的流程图。

图3是本发明的基于深度学习的药物分子生成方法的生成阶段的流程图。

图4是本发明的基于深度学习的药物分子生成方法的循环神经网络的流程图。

图5、图6、图7是本发明的基于深度学习的药物分子生成方法的生成阶段生成的分子的三个例子。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明的技术方案如下。

参照图1-7，一种基于深度学习的药物分子生成方法，该方法的具体操作步骤如下：

S3：通过生成阶段，利用迁移训练模型生成分子数据。

参照图1，在本实施例中，所述步骤S1具体为：采用SMILES(简化分子线性输入规范)格式表示分子，SMILES是一种用ASCII字符串明确描述已知的分子结构的字符序列；获取已知各种靶点的药物分子作为预训练数据；对字符序列进行数据编码过滤，生成适合循环神经网络输入的整数序列；将数据编码过滤后的数据输入循环神经网络进行训练；手动调整每次训练的超参数（学习率，训练步数），保留交叉熵损失函数值最小的训练模型；保留多次训练过程中较佳的模型作为预训练模型。通过ASCII字符串描述分子的结构，保证分子对应的字符序列的唯一性。通过将多种靶点的药物分子作为训练模型的预训练数据为循环神经网络的学习提供学习语法和特征，保证循环神经网络学习过程中学习的全面性和准确性，数据编码过滤包括分子的SMILES语句拆分，并根据字母表进行编码，转换成二维矩阵形式的数据，同时把分子的SMILES长度超过一定数量的分子进行剔除，以满足循环神经网络训练的输入。通过手动对每次训练过程中模型超参数的不断调节和优化，使训练模型能够达到最优的学习效果，其中模型超参数包括学习率，训练步数等，通过该训练模型产生的数据与已知的分子的相关特性进行比对，即保留交叉熵损失函数值最小的训练模型，以判断该训练模型是否能够达到对分子的基本特征和语法的学习。通过多个靶点分子信息的选取、多次训练学习，保留较佳的训练模型作为预训练模型。

参照图2，在本实施例中，所述步骤S2具体为：根据需要，读取某个靶点药物分子作为迁移训练数据；选取预训练阶段筛选出的较佳的循环神经网络的预训练模型；将数据编码过滤后的迁移训练数据输入循环神经网络进行训练；手动调整每次训练的超参数，保留交叉熵损失函数值最小的训练模型；保存最好的循环神经网络的迁移训练模型。通过在预训练模型启动过程中对模型超参数的调节，使该迁移训练模型的效果达到最佳。

参照图3，在本实施例中，所述步骤S3具体为：运行迁移训练模型，批量生成整数序列的分子数据；对批量生成的整数序列分子数据依次进行数据反编码和分子数据标准化；对标准化后的分子数据，过滤无效分子和去除重复分子；当生成的分子数量达到预先设定的分子数量时，保存生成的分子数据。通过将迁移训练数据输入到迁移训练模型中，获得期望的分子数据信息，生成阶段产生的分子数据涉及未知的分子数据，即为新的分子。通过对生成的分子数据库进行数据反编码和分子数据标准化确保生成的字符序列的唯一性，保证生成的分子为新的分子。

参照图4，在本实施例中，所述循环神经网络包括Embedding层、GRU层、Dense层、Attention层和Softmax函数，所述整数序列作为Embedding层的输入，所述Embedding层的输出作为GRU层的输入，所述GRU层的输出作为Attention层的输入、所述Attention层的输出作为Dense层的输入，所述Dense层的输出作为Softmax函数的输入，其中Embedding层、GRU层、Dense层、Attention层和Softmax函数依次循环执行。其中：Embedding层用于把分子的整数序列的每一个整数转换成向量，变成向量序列。GRU是一种常见的循环神经网络的循环单元，这里采用了叠加了两层的GRU。Dense层为全连接层，每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。Attention层：注意力层，计算每次循环的状态的权重，自动分配不同的权重系数。

在本实施例中，所述GRU设计为两层，两层所述GRU的输入输出依次连接。GRU设计为两层确保训练模型能够更准确和完善。

在本实施例中，所述模型参数包括学习率、训练步数。通过对学习率、训练步数的调节保证训练模型能够更准确和完善。

在本实施例中，所述数据编码过滤原则包括将分子的SMILES语句拆分，根据字母表进行编码，转换成二维矩阵形式的数据，同时分子的SMILES长度设置为136。通过对分子的SMILES语句拆分及对分子的SMILES长度设置为136，确保分子的SMILES语句能够作为循环神经网络的输入的字符序列，同时确保分子对应的字符序列的唯一性。

在本实施例中，所述预训练数据库包括ChEMBL数据库，ChEMBL数据库为已知有活性的具有类药性的分子数据库。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的药物分子生成方法，其特征在于，该方法的具体操作步骤如下：

S3：通过生成阶段，利用迁移训练模型生成分子数据。

2.如权利要求1所述的一种基于深度学习的药物分子生成方法，其特征在于，所述步骤S1具体为：

S11：采用SMILES(简化分子线性输入规范)格式表示分子，SMILES是一种用ASCII字符串明确描述已知的分子结构的字符序列；

S12：获取已知各种靶点的药物分子作为预训练数据；

S13：对字符序列进行数据编码过滤，生成适合循环神经网络输入的整数序列；

S14：将数据编码过滤后的数据输入循环神经网络进行训练；

S15：手动调整每次训练的超参数（学习率，训练步数），保留交叉熵损失函数值最小的训练模型；

S16：保留多次训练过程中较佳的模型作为预训练模型。

3.如权利要求2所述的一种基于深度学习的药物分子生成方法，其特征在于，所述步骤S2具体为：

S21：根据需要，读取某个靶点药物分子作为迁移训练数据；

S22：选取预训练阶段筛选出的较佳的循环神经网络的预训练模型；

S23：将数据编码过滤后的数据输入循环神经网络进行训练；

S24：手动调整每次训练的超参数，保留交叉熵损失函数值最小的训练模型；

S25：保存最好的循环神经网络的迁移训练模型。

4.如权利要求3所述的一种基于深度学习的药物分子生成方法，其特征在于，所述步骤S3具体为：

S31：运行迁移训练模型，批量生成整数序列的分子数据；

S32：对批量生成的整数序列分子数据依次进行数据反编码和分子数据标准化；

S33：对标准化后的分子数据，过滤无效分子和去除重复分子；

S34：当生成的分子数量达到预先设定的分子数量时，保存生成的分子数据。

5.如权利要求4所述的一种基于深度学习的药物分子生成方法，其特征在于，所述循环神经网络包括Embedding层、GRU层、Dense层、Attention层和Softmax函数，所述整数序列作为Embedding层的输入，所述Embedding层的输出作为GRU层的输入，所述GRU层的输出作为Attention层的输入、所述Attention层的输出作为Dense层的输入，所述Dense层的输出作为Softmax函数的输入，其中Embedding层、GRU层、Dense层、Attention层和Softmax函数依次循环执行。

6.如权利要求5所述的一种基于深度学习的药物分子生成方法，其特征在于，所述GRU设计为两层，两层所述GRU的输入输出依次连接。

7.如权利要求6所述的一种基于深度学习的药物分子生成方法，其特征在于，所述模型超参数包括学习率、训练步数。

8.如权利要求7所述的一种基于深度学习的药物分子生成方法，其特征在于，所述数据编码过滤原则包括将分子的SMILES语句拆分，根据字母表进行编码，转换成二维矩阵形式的数据，同时分子的SMILES长度设置为136。

9.如权利要求8所述的一种基于深度学习的药物分子生成方法，其特征在于，所述预训练数据库包括ChEMBL数据库。