CN109741797A

CN109741797A - 一种利用深度学习技术预测小分子化合物水溶性等级的方法

Info

Publication number: CN109741797A
Application number: CN201811502789.5A
Authority: CN
Inventors: 赵鸿萍; 崔秋季; 倪冰苇
Original assignee: China Pharmaceutical University
Current assignee: China Pharmaceutical University
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-10
Anticipated expiration: 2038-12-10
Also published as: CN109741797B

Abstract

本发明公开了一种利用深度学习技术预测小分子化合物水溶性等级的方法，包括如下步骤：(1)数据输入；(2)数据清洗；(3)特征提取；(4)标准化处理；(5)模型构建；(6)模型训练；(7)模型评估；(8)水溶性预测和分级。本发明能够通过输入化合物的结构信息(SMILES码)来预测化合物的水溶性，计算出化合物的水溶性等级。

Description

一种利用深度学习技术预测小分子化合物水溶性等级的方法

技术领域

本发明涉及水溶性评价技术领域，尤其是一种利用深度学习技术预测小分子化合物水溶性等级的方法。

背景技术

水溶性是化学溶质在一定温度与PH的水中溶解形成饱和溶液时的浓度，水溶性的评价对新药早期筛选和一致性评价具有重要意义。一方面，水溶性的评价是新药研发初期药物筛选的一个重要环节，水溶性的好坏直接影响候选药物的药代动力学性质(吸收，分布，代谢，排泄)和口服生物利用度。事实上，40％的新药研发因临床上不良的药代动力学性质而失败。另一个方面，水溶性、通透性和崩解度是药物BCS分类的主要依据，而BCS一类可以豁免生物等效性实验。随着药物一致性评价的广泛开展，水溶性的评估己成为我国当前药物研发领域所关注的一个重要命题。

现行的水溶性测定方法主要是基于传统的动力学和热力学两大类方法,这两种传统的测定方法存在成本高、无法实现化合物大规模筛选的缺点。因此，业界纷纷转向基于机器学习的方法来实现化合物水溶性预测。

现有水溶性预测方法主要基于传统的机器学习算法，包括决策树、随机森林、集成学习法、支持向量机、k-最近邻回归、人工神经网络、多层感知器、随机梯度下降等多种算法。对于化合物这种有着较为复杂的结构信息的数据，传统机器学习算法的特征提取能力有限，导致其对化合物分类效果不佳，水溶性预测精度不高，大部分预测结果往往与实验结果有一定差距。而深度学习在特征提取方面有着公认的优势，利用其构建水溶性模型可能优于现行的方法。

随着深度学习技术的发展，很多研究领域出现基于深度学习的预测模型胜过人的情况(如AlphaGo战胜围棋世界冠军柯洁，美国FDA批准IDX-DR用于糖尿病性视网膜病变的检测，其准确率甚至胜过医生)。鉴于以上背景，本发明尝试使用深度学习的方法建立一种成本低、精度高、适合化合物大规模筛选的水溶性预测方法。

发明内容

本发明所要解决的技术问题在于，提供一种利用深度学习技术预测小分子化合物水溶性等级的方法，能够通过输入化合物的结构信息(SMILES码)来预测化合物的水溶性，计算出化合物的水溶性等级。

为解决上述技术问题，本发明提供一种利用深度学习技术预测小分子化合物水溶性等级的方法，包括如下步骤：

(1)数据输入；

(2)数据清洗；

(3)特征提取；

(4)标准化处理；

(5)模型构建；

(6)模型训练；

(7)模型评估；

(8)水溶性预测和分级。

优选的，步骤(1)中，数据输入具体输入化合物的ID、InChIKey、SMILES码和logS。

优选的，步骤(2)中，数据清洗具体为：包括去重、SMILES码转换和剔除大分子化合物3步；首先，利用InChIKey的唯一性查重，去掉重复冗余的数据记录；然后把化合物的SMILES码转换为Canonical SMILES码以避免因编码方法不统一而带来的计算误差，并计算Canonical SMILES码字符串的长度和化合物的分子量；最后，剔除Canonical SMILES码字符串长度大于120或者分子量大于900的化合物。

优选的，步骤(3)中，特征提取具体为：通过Canonical SMILES码生成化合物的分子指纹，可选的分子指纹包括：FP2、FP3、MACCS、PubchemFingerprint多种，选用其中一种分子指纹作为步骤(5)构建的模型的输入数据。

优选的，步骤(4)中，标准化处理具体为：对化合物的水溶性值S计算其对数logS，然后对logS进行最大最小值标准化处理，作为输入数据的Label，最大最小值标准化法的计算公式为：

公式中的max_1≤i≤n{x_i}为所有水溶性数据的最大值，min_1≤i≤n{x_i}为水溶性数据的最小值，在使用最大最小值标准化方法时需要注意，当有新的数据需要加入时可能会导致max值和min值的变化，需要重新对数据进行标准化操作。标准化是为了去除数据的单位限制，将数据转化成无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权，其次是保证模型运行时收敛加快。

优选的，步骤(5)中，模型构建具体为：依次使用卷积神经网络、深度残差网络和全连接神经网络搭建；其中，深度残差网络由三个stage组成，每一个stage有3个残差模块，每个残差模块包括2个残差层，每个残差层又包括一层卷积层、一层批标准化层和一层激活函数层；残差模块，在其第二、三个stage中的第一个残差模块的shoutcut时又进行了一层卷积的操作；模型输入层的shape主要取决于化合物的Fingerprint向量的维度，模型输入层的数据是化合物的Fingerprint向量和Label值；输出层的shape是一维向量，对应最大最小值标准化处理后的logS。

优选的，步骤(6)中，模型训练具体包括如下步骤：

(61)定义LossFunction；

所述步骤(5)构建的模型实质是一种回归模型，评价回归模型质量常用可决系数R²，预测模型的LossFunction尝试使用了-R²，通过模型训练使Loss Function达到最小，即使R²最大化；

(62)设置卷积核大小及数量；

卷积核大小设为9或10；卷积核数量设为8-10之间的一个整数，每迭代上述深度残差网络中的一个stage，filters数目就增倍；以此来对模型进行调试，得到最优卷积核的大小及数量；

(63)设置网络层数和节点数；

针对所述步骤(5)构建的网络，层数调试主要针对深度残差网络和全连接神经网络进行，将深度残差网络层数设为20-30，全连接神经网络层数设为1-3进行试验，得到最优的层数；节点数调试主要针对全连接神经网络层，将该层节点数设为790-1000进行试验，得到最优的节点数；

(64)设置ActivationFunction；

针对深度残差网络中的激活函数层和全连接神经网络层的激活函数进行调试，使用常用的ReLU、P-ReLU、Sigmoid等进行试验，得出最适合模型的激活函数；

(65)设置Optimizers及其步长；

通过设置Adam、Nadam、RMSprop等优化器对模型进行调试，并把其步长即学习率设为0.0001、0.00001进行试验，得出最优的优化器及步长；学习率作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到最小值以及何时收敛到最小值；

(66)设置权值初始化方法与正则化方法；

针对卷积层，尝试使用uniform、he_normal2种常用的权值初始化方法和L1、L2两种正则化方法进行测试，选取适合模型卷积层的最优的权重初始化方法和正则化方法；

(67)BatchSize调试；

BatchSize为批尺寸，即每批次训练的数据量大小；把BatchSize设为30-60之间的一个整数进行试验，选取对于模型最优的BatchSize。

优选的，步骤(7)中，模型评估具体包括如下步骤：

(71)稳定性评估；

通过步骤(6)中产生的log文件绘制Epochs--R²图，由图中曲线的走势来判断模型的稳定性；

(72)精度评估；

步骤(5)构建的预测模型实质是回归模型，回归模型精度的评估指标常用R²值，式中y_i为真实值数据，是预测值，为真实值的均值，n为数据个数，R²值越大，表示模型精度越高，反之表示模型精度低；MSE表示均方误差，式中T_i为真实值，Y_i为模型预测值，n为数据个数，也是回归模型精度评价的常用指标之一，MSE值越小，表示模型精度越高，反之表示模型精度低；使用可决系数R²作为主要评估指标，并同时监测均方误差MSE作为参考；评估方法常采用4折、5折或10折交叉验证法；尝试将步骤(4)处理完毕的数据随机地平均分成4份、5份或10份，通过交叉验证构成训练集和验证集，以此进行训练并将其结果作为模型精度评估的依据。

优选的，步骤(8)中，水溶性预测和分级具体包括如下步骤：

(81)利用模型计算最大最小值标准化的logS；

经过步骤(7)的模型评估后，训练结果将获得预测精度高、稳定可靠的最优预测模型，具体会生成两个文件，分别是权重、偏差参数文件和模型结构文件；预测基于以上权重、偏差参数文件和模型结构文件，通过输入的化合物的分子指纹进行计算，模型输出为最大最小值标准化处理后的logS；

(82)去标准化得到水溶性值；

对步骤(81)输出的值进行去标准化计算得到logS，并经过转换得到化合物的水溶性值；转换公式如下：

公式中，logS为去标准化后的水溶性值的对数，MW为化合物的相对分子质量，S为水溶性值，即化合物在100g水中达到饱和状态时所能溶解的质量，单位为(g/100g)；

(83)利用水溶性等级表得出水溶性等级；

对比水溶性等级表得出对步骤(82)得到的水溶性值对应的水溶性等级。

本发明的有益效果为：(1)本发明的方法预测结果的正确率很高，单一模型就可以达到92.8％；(2)方法中的深度学习模型收敛速度快，性能稳定，泛化能力强；(3)方法使用方便，仅需输入化合物的结构信息(SMILES码)就能对化合物的水溶性等级进行预测；(4)本发明的方法基于Linux操作系统、Python语言及其Keras包即可实现，对计算机配置要求不高，普通个人计算机就可以实现模型构建及水溶性等级预测，适用范围很广；(5)本发明的方法能耗极低，适合于化合物的大规模筛选；(6)本发明的方法不仅可以用于药物研发早期的化合物筛选，还可以为药物一致性评价中广为关注的BCS等级评定提供参考。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型结构示意图。

图3为本发明的水溶性等级预测流程示意图。

图4为本发明的稳定性评估结果示意图。

具体实施方式

本发明提供了一种精度达到92.8％的化合物水溶性等级的预测方法，远远超过领域技术人员的准确率(14.2％-42.8％)，也超过了业界广泛使用的薛定谔方法的准确率(71.4％、85.7％)，具有较为广泛的应用前景。首次使用本发明所述小分子化合物水溶性等级预测方法，应按照图1所示的步骤1、2、3、4、5、6、7、8进行深度学习预测模型的构建和使用，具体步骤如下：

步骤1，数据输入：采集大于8000个模型训练用的样本数据(温度：常温；PH：6.8-7.4)，用于模型训练。本实施例在TOXNET数据库和PubMed文献库中采集到2017年之前的共计10286个化合物的水溶性相关数据，包括化合物的ID号、InChIKey、SMILES码和水溶性值。

步骤2，数据清洗：该步骤包括去重、SMILES码转换和剔除大分子化合物3步。首先，根据化合物InChIKey的唯一性进行去重，去掉重复的化合物水溶性数据；然后，使用OpenBabel软件把化合物的SMILES码转换为Canonical SMILES码，并对化合物的CanonicalSMILES码加氢、去盐后计算出Canonical SMILES码字符串的长度和化合物的分子量；最后，删去Canonical SMILES码字符串长度大于120或者化合物分子量大于900的化合物，得到10095个非重复的小分子化合物水溶性数据。

步骤3，特征提取：通过Canonical SMILES码生成化合物的分子指纹(Fingerprint)。可选的分子指纹包括：FP2、FP3、MACCS、PubcheFingerprint等多种，本实施例选择使用PubcheFingerprin。具体计算过程为：使用PaDel软件，以步骤2处理完的Canonical SMILES码作为输入，每个化合物计算得到一个881维的指纹向分子量。

步骤4，标准化处理：根据化合物的水溶性值计算其logS，然后对logS进行最大最小值标准化处理，作为模型输入数据的Label。

步骤5，模型构建：如图2所示，所述小分子化合物水溶性等级预测模型依次使用卷积神经网络、深度残差网络和全连接神经网络搭建。

步骤5.1，所述深度残差网络由三个stage组成，每一个stage有3个残差模块，每个残差模块包括2个残差层，每个残差层又包括一层卷积层、一层批标准化层和一层激活函数层。由于残差模块在每次stage迭代后其卷积核的数量都会翻倍，矩阵的维度会缩小一倍，所以，在两个stage2中的第一个残差模块的shortcut都又进行了一层卷积操作来和下一个stage的维度匹配。

步骤5.2，所述预测模型的输入数据是步骤3得到的10095个非重复的小分子化合物的881维PubchemFingerprint向量和步骤4得到的Label值，输出层的shape是一维向量，对应最大最小值标准化处理后的logS。

步骤6，模型训练：对步骤5构建的预测模型进行训练，通过不断调整参数来优化模型。所述模型训练需要从定义损失函数、设置卷积核大小及数量、设置网络层数和节点数、设置激活函数、设置优化器及其步长、设置权值初始化方法和步长及正则化方法、批尺寸等7个方面不断试验，最终在模型稳定状态下，达到LossFunction值最小。

步骤6.1，定义LossFunction：所述步骤5构建的模型实质是一种回归模型，评价回归模型的质量常用可决系数R²，因此，本实施例所述模型中的Loss Function定义为-R²，通过模型训练使Loss Function达到最小，即使R²最大化。

步骤6.2，设置卷积核大小及数量：本实施例中，将卷积核大小设为9、10，卷积核数量初始值设为8-10之间的一个整数进行调试，当卷积核大小为9，卷积核数量初始值为9时，模型达到最优效果。

步骤6.3，设置网络层数和节点数：针对所述步骤5构建的网络，层数调试主要针对深度残差网络和全连接神经网络进行。本实施例中，当深度残差网络层数为20，全连接神经网络层数为1，节点数为970时，此时模型性能达到最优。

步骤6.4，设置Activation Function：针对深度残差网络中的激活函数层和全连接神经网络层的激活函数进行调试，本实施例中，当残差层中的激活函数全部选用ReLU，全连接神经网络层的激活函数选择Sigmoid时，得到最优效果。

步骤6.5，设置Optimizers及其步长：本实施例中，当优化器设为可基于低阶的自适应估计的Adam，其敏感参数步长即学习率为0.0001时，模型效果最佳。

步骤6.6，设置权值初始化方法、步长和正则化方法：本实施例中，当卷积层使用uniform的权值初始化方法，卷积步长(strides)为1，施加在权重上的正则项为L2正则化方法时，模型性能达到最优。

步骤6.7，Batch Size调试：本实施例中，BatchSize测试范围为30-60，当BatchSize为51时，模型收敛速度快，稳定性好。

所述预测模型在训练过程中，会不断生成并更新附加在每层网络的权重、偏差参数文件。模型训练完成后，保存模型稳定状态下R²最优的权重、偏差参数文件为model.h5，同时，保存模型结构文件为model.json。

步骤7，模型评估分别从模型稳定性和精度两方面进行评估。

步骤7.1，稳定性评估：所述稳定性评估是通过步骤6产生的log文件绘制Epochs--R²图，由图中曲线的走势来判断模型的稳定性。如图4所示，在前100个epoch时，验证集的-R²大幅度下降，在第400个epoch左右趋于稳定，-R²稳定在-0.75左右，说明模型收敛完全，稳定性很好。

步骤7.2，精度评估：步骤5构建的预测模型实质是回归模型，回归模型精度评估常用R²值，R²值越大，表示模型精度越高，反之表示模型精度低。另外，MSE表示均方误差，也是回归模型精度评价的常用指标之一，MSE值越小，表示模型精度越高，反之表示模型精度低。因此，本实施例使用可决系数R²作为主要评估指标，并同时监测均方误差MSE作为参考。

本实施例选用10折交叉验证法来评估模型，即将步骤4处理完毕的数据随机等分成10份，轮流将其中9份整合在一起作为训练数据集，1份作为验证数据集，以验证数据集上的R²和MSE作为评价模型质量的依据，结果数据如表1所示。

由表1可见，10折交叉验证的结果基本一致，说明本实施例中的预测模型结构具有相当泛化能力，算法是可行的。同时R²均值为0.7584，MSE均值为0.0031，说明水溶性预测模型的拟合精度较高。

表1 10折交叉验证结果数据

步骤8，预测：本步骤所述的水溶性预测和分级分三步，依次为：利用模型计算最大最小值标准化的logS；去标准化得到水溶性值；利用水溶性等级表得出水溶性等级。具体流程参照图3。

步骤8.1，利用模型计算最大最小值标准化的logS：本实施例以(solubility)ANDnovel为关键词从PubChem的文献中采集了2017、2018两年内新出现的化合物的水溶性数据共计14个(温度：常温；PH：6.8-7.4)，根据步骤2、3进行数据清理与特征提取后，得到14个化合物的PubchemFingerprint向量作为预测集数据。预测基于以上所述步骤6得到的模型的权重、偏差参数文件(model.h5)和模型结构文件(model.json)，以14个预测集数据作为输入，计算得到最大最小值标准化处理后的logS。

步骤8.2，去标准化得到水溶性值：预测模型的输出为待测化合物最大最小值标准化处理后的logS的预测值，因此，模型预测得到结果需要去标准化和计算转换。根据标准化公式，将步骤8.1得到的结果进行反向计算得到水溶性数值的对数logS(S单位为mol/L)，再对logS进行计算和转换(参照公式6)，得到化合物在每100g水中的饱和溶解量，单位为(g/100g)。

步骤8.3，利用水溶性等级表得出水溶性等级：对比水溶性等级表(表2)得出步骤8.2得到的水溶性值对应的水溶性等级。水溶性等级表实质上是化合物在100g水中的饱和溶解度等级划分表。

表2水溶性等级表

本实施例还请了4位药物化学领域的专业人员根据相关理论同步预测了14个化合物的水溶性等级，同时还使用了薛定谔(Schrodinger)软件中的QikProp模块对这14个数据进行预测。Schrodinger是用于药物发现的完整软件包，其中QikProp模块是针对ADME性质预测开发的模块，是业界广泛使用的较为经典的可进行水溶性值预测的工具。结果如表3所示：

表3水溶性等级预测结果

由表3可见，本实施例所述化合物水溶性等级预测方法的准确率达到了92.8％，明显高于领域技术人员和Schrodinger的预测准确率，充分说明了本方法具有相当的实用价值和研究意义，对药物研发初期化合物水溶性等级预判具有借鉴价值，有较大的应用前景。

本发明所述方法中，InChIKey是一种用来识别化合物的文本。InChI Key是对InChi运用SHA-256算法处理后得到的哈希值，它的出现是为了解决InChi长度不定的问题。InChi是国际纯粹与应用化学联合会给出的一个一种化学结构的唯一识别码。与InChi相比，InChi Key具有这样几个特点：长度固定，永远是27个字母；与InChi几乎一一对应，只有很小的概率(1/10亿)出现两个InChi对应同一个InChIKey。因此，用InChIKey来去除重复的化合物是可行的。

本发明所述方法中，SMILES(Simplified molecular input line entryspecification，简化分子线性输入规范)，是一种用ASCII字符串明确描述化合物二维或三维分子结构的规范，SMILES包括Generic SMILES、Canonical SMILES、Isomeric SMILES、Absolute SMILES四类。

本发明所述方法中，Canonical SMILES属于SMILES的一种，保证每个化学分子只有一个SMILES表达式，用于生成化合物的分子指纹图谱。

本发明所述方法中，logS是溶解度S(mol/L)以10为底取的对数。

本发明所述方法中，Fingerprint(分子指纹图谱)，是以一系列二进制数字(位)编码分子结构，其表示分子中特定子结构的存在与否。

本发明所述方法中，所述数据的最大最小值标准化处理方法，其计算算式为：

公式中的max_1≤i≤n{x_i}为所有水溶性数据的最大值，min_1≤i≤n{x_i}为水溶性数据的最小值。在使用最大最小值标准化方法时需要注意，当有新的数据需要加入时可能会导致max值和min值的变化，需要重新对数据进行标准化操作。

本发明所述方法中，激活函数ReLU一般用于隐层神经元的输出，收敛速度较快，其计算算式为：

φ(x)＝max(0，x)

本发明所述方法中，激活函数Sigmoid能够把输入的连续实值“压缩”到0和1之间。其计算算式为：

本发明所述方法中，可决系数R²是回归模型的评价指标，其计算算式为：

公式中y_i为真实值数据，是预测值，为真实值的均值，n为数据个数。

本发明所述方法中，MSE(Mean Square Error)是(神经)网络的均方误差。是反映估计量与被估计量之间差异程度的一种度量，MSE计算算式如下：

公式中T_i为真实值，Y_i为模型预测值，n为数据个数。

本发明所述方法中，步骤8.2的转换公式如下：

公式中，logS为去标准化后的水溶性值的对数，MW为化合物的相对分子质量，S为水溶性值，即化合物在100g水中达到饱和状态时所能溶解的质量，单位为(g/100g)。

本发明所述方法中，交叉验证方法，用来测试算法准确性，是常用的测试方法。本发明将数据集分成k(k＝4、5、10)份，轮流将其中k-1份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率(或差错率)。k次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次k折交叉验证(例如k次k折交叉验证)，再求其均值，作为对算法准确性的估计。

Claims

1.一种利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，包括如下步骤：

(1)数据输入；

(2)数据清洗；

(3)特征提取；

(4)标准化处理；

(5)模型构建；

(6)模型训练；

(7)模型评估；

(8)水溶性预测和分级。

2.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(1)中，数据输入具体输入化合物的ID、InChIKey、SMILES码和logS。

3.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(2)中，数据清洗具体为：包括去重、SMILES码转换和剔除大分子化合物3步；首先，利用InChIKey的唯一性查重，去掉重复冗余的数据记录；然后把化合物的SMILES码转换为Canonical SMILES码以避免因编码方法不统一而带来的计算误差，并计算CanonicalSMILES码字符串的长度和化合物的分子量；最后，剔除Canonical SMILES码字符串长度大于120或者分子量大于900的化合物。

4.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(3)中，特征提取具体为：通过Canonical SMILES码生成化合物的分子指纹，可选的分子指纹包括：FP2、FP3、MACCS、PubchemFingerprint多种，选用其中一种分子指纹作为步骤(5)构建的模型的输入数据。

5.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(4)中，标准化处理具体为：对化合物的水溶性值S计算其对数logS，然后对logS进行最大最小值标准化处理，作为输入数据的Label，最大最小值标准化法的计算公式为：

公式中的max_1≤i≤n{x_i}为所有水溶性数据的最大值，min_1≤i≤n{x_i}为水溶性数据的最小值，在使用最大最小值标准化方法时需要注意，当有新的数据需要加入时可能会导致max值和min值的变化，需要重新对数据进行标准化操作。

6.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(5)中，模型构建具体为：依次使用卷积神经网络、深度残差网络和全连接神经网络搭建；其中，深度残差网络由三个stage组成，每一个stage有3个残差模块，每个残差模块包括2个残差层，每个残差层又包括一层卷积层、一层批标准化层和一层激活函数层；残差模块，在其第二、三个stage中的第一个残差模块的shoutcut时又进行了一层卷积的操作；模型输入层的shape主要取决于化合物的Fingerprint向量的维度，模型输入层的数据是化合物的Fingerprint向量和Label值；输出层的shape是一维向量，对应最大最小值标准化处理后的水溶性值的对数logS。

7.如权利要求1所述的利用深度学习技术预测小分子化合物水溶性等级的方法，其特征在于，步骤(6)中，模型训练具体包括如下步骤：

(61)定义LossFunction；

所述步骤(5)构建的模型实质是一种回归模型，评价回归模型质量常用可决系数R²，预测模型的LossFunction尝试使用了-R²，通过模型训练使LossFunction达到最小，即使R²最大化；