CN109979541A

CN109979541A - 基于胶囊网络的药物分子药代动力学性质和毒性预测方法

Info

Publication number: CN109979541A
Application number: CN201910216282.1A
Authority: CN
Inventors: 杨胜勇; 王译伟; 邹俊; 黄磊; 姜斯文
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-07-05
Anticipated expiration: 2039-03-20
Also published as: CN109979541B

Abstract

基于胶囊网络的药物分子药代动力学性质和毒性预测方法。在构建全面的分子指纹和分子描述符，建立模型的前期准备工作后，通过卷积或者受限玻尔兹曼机操作在上层低级特征中抽取分子的低级特征内容，再利用胶囊网络的方法在下一层高级特征中来抽象分子的高级特征，通过动态路由算法拟合高级特征与活性标签之间的关系，从而预测未知小分子的药代动力学性质和毒性分类。本发明不需要收集大规模的数据集进行训练，通过端到端对输入进行优化进而实现自动降维，通过迭代动态路由过程更新耦合系数，动态路由将上层胶囊的所有特征输送到下层的任何一个胶囊中，极大的保留了底层特征和高层特征间的层次位置关系。比传统的机器学习方法的预测效果更好。

Description

基于胶囊网络的药物分子药代动力学性质和毒性预测方法

技术领域

本发明涉及计算机辅助药物分子设计领域，特别涉及一种基于胶囊网络的药物分子药代动力学性质和毒性预测方法。

背景技术

一种药物的巨大成功不仅取决于其良好的药效，还依赖于其优秀的药代动力学性质和低毒性。据统计，候选药物不良的吸收、分布、代谢、排泄和毒性大约占了药物研发失败原因的50％以上，因此在药物研发早期排除和优化具有不良药代动力学性质和毒性的化合物，可以极大地提高药物开发的成功率。近年来，虽然可以通过体外高通量筛选方法对化合物的药代动力学性质和毒性进行测定，但是基于实验的测定方法不仅费用高、时间长，还必须在使用这些测试技术之前已经成功合成了化合物。若已经合成的候选药物药代动力学性质和毒性不符合要求，则只能放弃。这时，使用虚拟筛选方法对化合物的药代动力学性质和毒性进行预测就为药物研发提供了一个新的策略。它不仅可以节约大量的人力、物力，而且可以缩短药物开发的周期，进而提高效率。迄今为止，虚拟药代动力学性质和毒性预测方法，一般分为基于受体和基于配体两种。由于基于受体的预测方法受到受体柔性、水溶性和打分不准确等因素的限制，使得基于配体的预测方法被更为广泛的应用。基于配体的预测方法又进一步分为构效关系、药效团模型、相似性搜索、机器学习等。其中，机器学习方法是通过寻找数据中的模式并应用这些模式来做出预测分类，实践表明它能够做出比其他方法更加准确的分类结果。虽然应用机器学习已经极大的提高了预测准确率，然而由于药代动力学性质和毒性的复杂性，使得常规的机器学习方法很难同时适用于多种相关性质的预测。最近，机器学习方法中的深度学习网络在多种领域得以成功应用，并且基于该类算法建立的模型在药物发现上也有应用。但是，仍然有一些因素限制了深度学习网络在药物开发中的应用，至少有以下两点。第一，深度学习需要大量的数据来训练模型，才能得到精确的预测结果。而药物研发中要收集大量且可靠的活性数据是一项成本高和耗时长的工作。第二，常规的深度学习网络，如卷积神经网络(CNN，Convolutional Neural Networks)，最初是为识别二维图像所设计。在这些网络中，某些特殊的算法，例如CNN中用于降维的最大池化，它会丢失一些原始的数据信息，所以导致了常规的深度学习网络在药物发现的相关研究中表现欠佳。因此，目前仍然需要发展新的、更准确的药代动力学性质和毒性的预测方法，从而促进机器学习在新药研发中的应用，为缩短药物研发周期和降低药物研发成本提供有利条件。

发明内容

本发明的目的是：提供一种基于胶囊网络(CapsNets，Capsule Networks)的全新的药物分子药代动力学性质和毒性预测方法。这种方法属于一种基于配体的预测方法。本方法基于配体的分子指纹和分子描述符，采用深度学习的胶囊网络来建立分子指纹和分子描述符与药代动力学性质及毒性之间的关系，克服了现有技术中预测分类效果不佳、对表征配体的分子指纹和分子描述符的原始信息丢失严重以及预测的准确性对训练集的规模依赖性很大的不足。

本发明的基本思路是：收集通过实验测定的某种特定的药物分子药代动力学性质和毒性已知的化合物及其活性标签作为训练集，构建全面的分子指纹和分子描述符藉以表征小分子，计算训练集中所有分子的分子指纹和分子描述符，先通过卷积或者受限玻尔兹曼机操作获取分子的低级特征内容，再利用胶囊网络方法抽象获得分子的高级特征，并拟合高级特征与活性标签之间的关系，从而用于预测未知小分子的活性分类。

本发明的目的是这样达到的：

一种基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：收集通过实验测定的某种特定的药物分子药代动力学性质或毒性已知的化合物及其活性标签，构建全面的分子指纹和分子描述符藉以表征分子，建立模型的前期准备工作；然后在原始分子表征信息中，通过卷积或者受限玻尔兹曼机操作抽取分子的低级特征内容，再利用胶囊网络的方法来抽象分子的高级特征，通过动态路由算法拟合高级特征与活性标签之间的关系，从而用于预测未知小分子的药代动力学性质和毒性分类的方法。

预测包括如下六个步骤：

(1)训练集的准备：训练集的准备采用同时包含小分子结构及其特定的活性标签的数据，如果活性信息是定量表示，选择合理的阈值转为定性表示，活性＝1；非活性＝0，以sdf格式保存；

(2)分子描述符的计算；分子描述符包括了机器学习方法建立药代动力学和毒性预测模型中最常用的13种，即脂水分配系数、表观分配系数、分子溶解度、分子量、氢键供体数、氢键受体数、可旋转键的数目、环的数目、芳香环的数目、氧原子和氢原子的数目之和、极性表面积、分子部分极性表面积和分子表面积；所有分子描述符的计算可以通过开源PaDEL-Descriptor或Discovery Studio程序完成；

(3)分子指纹的计算；采用基于子结构特征的166位MACCS指纹来表征分子的结构，通过RDKit程序完成分子指纹的计算；

(4)分子描述符的预处理；不同分子描述符的值的范围差异很大，通过对分子描述符预处理将它们的值限制在(0，1)的区间；采用一维向量表征化合物，包括化合物名称、活性标签、指纹和标度后的描述符值，以csv格式保存；

(5)上一层低级特征(u_i)和下一层高级特征(U_j)分类模型的建立；先通过以卷积操作作为特征提取器获得分子的低级特征，或者通过受限玻尔兹曼机操作获得分子的低级特征，再利用胶囊网络的方法来抽象分子的高级特征，并通过动态路由算法拟合高级特征与活性标签之间的关系，在动态路由中不断更新两个权重，即低级特征和高级特征的权重/耦合系数c_i,j和低级特征映射到高级特征的可能性b_i,j，获得最优的“共识”预测结果；

(6)预测未知化合物的活性；根据数字胶囊层胶囊输出的长度预测化合物有无活性，同时对所建立的预测模型的性能进行验证。

所述在利用胶囊网络的方法来抽象分子的高级特征中，假设上一层有分子的低级特征u₁，u₂和u₃…u_n，下一层有分子的高级特征U₁和U₂；

当有一个新的低级特征u_n+1需要决定将它输送给U₁或U₂，通过调整权重c_n+1,1和c_n+1,2实现；

高级特征U₁和U₂接受到来自其它低级特征的输出，在高级特征内部，低级特征输出密集的位置意味着此处有多种低级特征的预测彼此接近，即为“共识”输出；新的低级特征u_n+1的输出靠近哪个高级特征中的“共识”输出，就将它输送给哪个高级特征；动态路由根据上述结果产生一种机制，自动调整其权重，如果u_n+1被输送到了高级特征U₁，即上调U₁相对的权重c_n+1,1，同时下调U₂相对的权重c_n+1,2。

以卷积操作作为特征提取器获得分子的低级特征的步骤是：

1)将包含有训练集化合物名称、活性标签、分子指纹和标度后的分子描述符值以csv格式作为输入文件；

2)将输入向量映射到卷积层convolutional layer，优化调节卷积层过滤器filters的数目和大小；

3)将卷积层获得的低级特征通过全连接操作映射到隐藏特征层hiddenfeaturelayer，优化调节隐藏特征层的神经元数目nodes；

4)将上层的特征向量输出通过全连接操作全部映射并激活到主胶囊层PrimaryCaps layer，优化调节主胶囊层神经元数目以及该层中每一个胶囊的维度dimension；

5)将主胶囊层的所有输出映射到数字胶囊层DigitCaps layer，优化调节路由迭代次数Routing time；

在利用胶囊网络的方法来抽象分子的高级特征中，胶囊网络包括主胶囊层和数字胶囊层，抽象分子的高级特征过程分为四个部分：

1)矩阵变化，通过上层低级特征和下一层高级特征的关系W将低级特征u转换为高级特征U：

U_j＝W_ij·u_i，

i表示较低层的胶囊，j表示较高层的胶囊；

2)输入加权，低级特征向量需要通过调整耦合系数/权重c_i,j来决定发送给哪个更高级别的特征，耦合系数由softmax函数计算：

b_ij表示底层的胶囊i对应到高层的胶囊j的对数概率，其初始值设置为0；

3)加权求和，对获得高级特征向量进行加权求和(s_j)：

表示所有低级特征向量的“共识”输出，如果胶囊i和胶囊j之间的耦合系数为1，那么胶囊i发送到高层中其它胶囊的耦合系数就为0，即胶囊i的所有输出都被送到了胶囊j；

4)非线性激活，采用向量的非线性激活/压缩函数squash function激活“共识”输出，生成高层的胶囊：

v_j表示数字胶囊层的向量输出。

通过动态路由算法拟合高级特征与活性标签之间的关系，将上层胶囊的所有特征输送到下层的任何一个胶囊中，自动调整其权重，动态路由算法的步骤为：

1)将隐藏特征层的输出进行胶囊封装后输出U_j，设置路由次数r；

2)定义b_i,j为l层的胶囊向量连接到下一层胶囊向量的可能性，初始值为0；

3)循环执行步骤4)到步骤7)r次；

4)针对l层的胶囊向量，通过计算softmax函数，将b_i,j转化为c_i,j；

5)针对l+1层的胶囊向量，加权求和s_j；

6)针对l+1层的胶囊向量，采用向量的非线性激活激活s_j得到v_j；

7)根据U_j和v_j的关系更新b_i,j：当两者相似时，点积就大，b_i,j就变大，低级特征连接高级特征的可能性就变大；相反，当两者相差大时，b_i,j就变小，低级特征连接高级特征的可能性就变小。

所述根据U_j和v_j的关系更新b_i,j：是用U_j和v_j的点积来更新b_i,j。

所述采用受限玻尔兹曼机作为特征来获得分子的低级特征的步骤是：

2)将输入向量映射到隐藏特征层，优化调节隐藏特征层神经元的数目、该层受限玻尔兹曼机操作的数目、受限玻尔兹曼机的学习率learning rate of RBM和受限玻尔兹曼机的迭代次数interation of RBM；

3)将上层的特征向量输出通过全连接操作全部映射并激活到主胶囊层PrimaryCaps layer，优化调节主胶囊层神经元数目以及该层中每一个胶囊的维度dimension；

4)将主胶囊层的所有输出映射到数字胶囊层DigitCaps layer，优化调节路由迭代次数。

所述在步骤(1)训练集的准备中，训练集根据目标预测的特定活性建立，包含分子的结构及其相应的活性标签，分子的数目大于或等于1,000个；

所述在步骤(2)分子描述符的计算和(3)指纹计算中，可以选择开源PaDEL-Descriptor、RDKit和商业版Discovery Studio等程序完成全部分子描述符和分子指纹的计算工作；

所述在步骤(4)分子描述符的预处理中，按照以下公式，将分子描述符的值限制在(0，1)的区间，

其中，x是分子描述符的原始值，x*是标度后的值，max和min分别对应该分子描述符的最大值和最小值；采用一维向量表征化合物，以csv格式保存包括化合物名称、活性标签、分子指纹和标度后的分子描述符值；

所述在步骤(6)预测未知化合物的活性中，根据胶囊的定义，每个胶囊的长度表示其特征内容出现的概率，最后根据数字胶囊层输出的长度预测化合物有无活性，做分类时取输出向量的长度。

所述胶囊的长度由间隔损失margin loss计算：

L_k＝T_k max(0,m⁺-||v_k||)²+λ(1-T_k)max(0,||v_k||-m^-)²

k表示分类，T_k是分类的指示函数，m⁺为上界，m^-为下界，λ是比例系数，总损失是各个样例损失之和；一般设置是：如果k类存在，||v_k||不会小于0.9，如果k类不存在，||v_k||不会大于0.1。

除了在各个步骤中涉及到的超参数，包括过滤器的数目和大小、各层的神经元数目、迭代次数需要优化调节以外，还需要对整个网络的超参数进行优化调节，包括批处理大小、迭代次数以及网络学习率，通过对训练集进行5倍交叉验证获得所有超参数的最优值，然后将其用于模型设置，实现对未知化合物的活性预测。

使用独立于训练集以外的测试集对所建立的预测模型的性能进行验证，采用以下公式进行评估：

其中Q代表预测模型的总体预测准确率，SE代表敏感度，是指预测模型正确预测阳性/活性化合物所占的比重，SP代表特异性是指预测模型正确预测阴性/非活性化合物所占的比重。

本发明的积极效果是：本发明的方法属于一种基于配体的预测方法，是基于配体的分子指纹和分子描述符，采用一种全新的深度学习方法，胶囊网络来建立分子指纹和分子描述符与药代动力学性质和毒性的关系。本发明的创新之处在于利用胶囊网络的动态路由算法来抽象分子的高级特征，最大限度的获取并保留了所有低级特征和高级特征之间的关系。相对以前的基于其它机器学习预测药物分子药代动力学性质和毒性的方法，本发明具有三方面的优势：

第一，本发明的方法比传统的机器学习方法的预测效果更好。传统的卷积神经网络的不足是：首先，它对空间位置的学习效果不佳，在提取特征时会进行多次采集，通过最大池化算法放大了出现概率高的特征，但是忽略了出现概率低的特征；同时，它在对基于一维向量分子表征的学习时，对全局分子表征进行特征提取的效果并不好，例如隐藏在特征之间的逻辑关系，如位置、微小变化等，不会被学习到，因此严重影响到识别精确度。

第二，本发明的方法不需要对分子描述符进行提前优化降维，它通过端到端对输入进行优化进而实现自动降维，胶囊网络在空间位置上对分子表征的处理远超CNN，整个学习过程以胶囊长度表示特征出现概率，方向表示特征所处的状态的形式从底层传递至高层，封装了多种特征信息，这样在减少训练样本数量的同时也保留了出现概率少的分子特征信息；通过迭代动态路由过程更新耦合系数，动态路由可以将上层胶囊的所有特征输送到下层的任何一个胶囊中，极大的保留了底层特征和高层特征间的层次位置关系。

第三，该方法不需要收集大规模的数据集进行训练，1,000个化合物以上的训练集就可以获得较好的预测准确率。

第四，该方法收敛时间较快，在同样条件下，达到收敛所需要的时间是相应的标准卷积神经网络和受限玻尔兹曼机堆积的深度置信网络训练时间的十分之一。本发明具有效率高、预测效果好的特点，具有很高的实用价值和推广意义。

附图说明

图1分子从低级特征到高级特征的实现过程。

图2卷积作为分子低级特征提取器的胶囊模型工作流程图。

图3受限玻尔兹曼机作为分子低级特征提取器的胶囊模型工作流程图。

图4胶囊网络的动态路由算法过程图。

图5利用本发明实现基于胶囊网络的药物分子药代动力学性质和毒性预测的流程图。

具体实施方式

附图给出了采用本发明实现药物分子药代动力学性质和毒性预测的具体过程。

本发明实施预测的性质包括：(1)血脑屏障渗透；(2)人口服生物利用度；(3)致癌性；(4)Tox21的12种致基因毒性；(5)hERG抑制剂；(6)人小肠吸收；(7)肝毒性；(8)致畸。

参见附图1。

本发明基于配体的分子指纹和分子描述符，采用一种全新的深度学习方法，胶囊网络来建立分子指纹和分子描述符与药代动力学性质和毒性的关系。本发明的创新之处在于利用胶囊网络的动态路由算法来抽象分子的高级特征，最大限度的获取并保留了所有低级特征和高级特征之间的关系。

在利用胶囊网络的方法来抽象分子的高级特征中，假设上一层有分子的低级特征u₁，u₂和u₃…u_n，下一层有分子的高级特征U₁和U₂；

预测未知化合物的活性中，根据胶囊的定义，每个胶囊的长度表示其特征内容出现的概率，最后根据数字胶囊层输出的长度预测化合物有无活性，做分类时取输出向量的长度。

胶囊的长度由间隔损失margin loss计算：

L_k＝T_k max(0,m⁺-||v_k||)²+λ(1-T_k)max(0,||v_k||-m^-)²

本发明的方法具体实施方式的过程如下：

第一步，训练集的准备：通过多种可靠途径收集已知化合物特定的药代动力学性质和毒性数据。由于化合物结构的微小错误都可能对模型的预测性能造成不利的影响，因此，必须对获得的所有化合物用以下工作流程进行“预处理”：1)去除无机物和混合物；2)若同一化合物具有差异较大的活性测试数据时，应删除；3)对特殊的化学结构类型进行规范化；4)去除结构重复的化合物；5)进行必要的手动检查。这个工作流程是在一系列开源化学软件ChemoTyper和OpenBabe的帮助下实现的。训练集的准备采用同时包含小分子结构及其特定的活性标签的数据，如果活性信息是定量表示，选择合理的阈值转为定性表示，活性＝1；非活性＝0，以sdf格式保存。

第二步，利用计算药物分子指纹和描述符的通用软件计算分子指纹和分子描述符：分子描述符包括了机器学习方法建立药代动力学和毒性预测模型中最常用的13种，即脂水分配系数、表观分配系数、分子溶解度、分子量、氢键供体数、氢键受体数、可旋转键的数目、环的数目、芳香环的数目、氧原子和氢原子的数目之和、极性表面积、分子部分极性表面积和分子表面积。所有分子描述符的计算通过开源PaDEL-Descriptor或DiscoveryStudio程序完成。

分子指纹的计算采用基于子结构特征的166位MACCS指纹来表征分子的结构，通过RDKit软件完成分子指纹的计算。选择该指纹的原因是：其长度较短，有利于减少建模中的参数数目和缩短训练时间。

第三步，分子描述符的预处理：将得到的分子描述符进行预处理和重新标度。不同分子描述符的值的范围差异很大，按照以下公式将它们的值限制在(0，1)的区间：

x是分子描述符的原始值，x*是标度后的值，max和min分别对应该分子描述符的最大值和最小值。采用一维向量表征化合物，包括化合物名称、活性标签、分子指纹和标度后的分子描述符值，以csv格式保存。

第四步，进入上一层低级特征和下一层高级特征分类模型的建立；先通过以卷积操作作为特征提取器获得分子的低级特征，或者通过受限玻尔兹曼机操作获得分子的低级特征，再利用胶囊网络的方法来抽象分子的高级特征，并通过动态路由算法拟合高级特征与活性标签之间的关系，在动态路由中不断更新两个权重，即低级特征和高级特征的权重/耦合系数c_i,j和低级特征映射到高级特征的可能性b_i,j，获得最优的“共识”预测结果。

通过对训练集的5倍交叉验证监控多个评价指标，包括准确率、特异度、灵敏度和马修斯相关系数，获得所有超参数的最优值，在实际操作中是：一旦从所有候选超参数设置中获得最高精度，就将最佳的超参数设置应用到测试集的测试和未知标签的化合物的预测中。如果训练集较小(少于10,000个化合物)时，训练过程中应采取早停止策略以缓解过拟合的发生，具体过程是：将原始训练集随机分为新的训练集和验证集(4：1)。当验证集中的错误小于上一次迭代时，训练将立即停止。检查网络是否收敛的条件是：随着迭代次数的递增，损失函数值不再下降。这样就建立了计算机程序预测药物分子药代动力学性质和毒性过程。

第五步，使用独立于训练集以外的测试集对所建立的预测模型的性能进行测试，采用以下公式进行评估：

其中Q代表预测模型的总体预测准确率Accuracy，SE代表敏感度Sensitivity是指预测模型正确预测阳性/活性化合物所占的比重，SP代表特异性Specificity是指预测模型正确预测阴性/非活性化合物所占的比重。

最后，实现对未知活性化合物的分类预测。直接将目标预测的化合物以csv文件的方式输入已经训练和测试完成的模型。运行后，输出预测的化合物的活性结果：0表示无活性，1表示有活性。

参见图2.

在以卷积操作作为特征提取器获得分子的低级特征的步骤是：

4)将上层的特征向量输出通过全连接操作全部映射并激活到主胶囊层PrimaryCaps layer，优化调节主胶囊层神经元数目以及该层中每一个胶囊的维度

dimension；

5)将主胶囊层的所有输出映射到数字胶囊层DigitCaps layer，优化调节路由迭代次数。

U_j＝W_ij·u_i，

i表示较低层的胶囊，j表示较高层的胶囊；

b_i,j表示底层的胶囊i对应到高层的胶囊j的对数概率，其初始值设置为0；

3)加权求和，对获得高级特征向量进行加权求和(s_j)：

v_j表示数字胶囊层的向量输出。

参见附图3.

采用受限玻尔兹曼机作为特征提取器来获得分子的低级特征的步骤：

通过动态路由算法拟合高级特征与活性标签之间的关系，将上层胶囊的所有特征输送到下层的任何一个胶囊中，自动调整其权重，动态路由算法的步骤(附图5)为：

3)循环执行步骤4)到步骤7)r次；

5)针对l+1层的胶囊向量，加权求和s_j；

参见附图5。

实施例1.

预测hERG(human ether-a-go-go-related gene)编码的钾离子通道的活性化合物，以卷积操作作为特征提取器获得分子的低级特征。实施过程如下：

第一步，收集hERG活性相关的数据。从ChEMBL开源数据库(https://www.ebi.ac.uk/chembl/)中获取与hERG相关的数据。ChEMBL是欧洲生物信息学研究所建立的一个著名的生物活动数据库。任何人都可以从网站下载这个公共数据库，因此它被化学信息学研究人员广泛使用。初始的ChEMBL-hERG数据集建立的工作流程如下：

1)根据hERG在数据中的ID号(ChEMBL 240)，提取了17,952种进行了hERG活性测试的化合物；

2)排除了标识为“Nonstandard unit for type”(非标准单位类型)、“Outsidetypicalrange”(超出典型范围)和“Not Determined”(未确定)的化合物。初始数据集共有10,068个化合物，包括4,793个阳性(hERG抑制剂，IC₅₀<10μM)和5,275个阴性(hERG非抑制剂，IC₅₀≥10μM)。通过对原始数据集进行预处理获得精确的ChEMBL-hERG数据集。最后，我们得到了8,310个化合物(阳性化合物：3,860；阴性化合物：4,450)的数据集。为了建立模型和后续模型测试需要，将整个数据集随机分为90％作为训练集(7,460个化合物)和10％作为测试集(850个化合物)。

第二步，利用计算药物分子指纹和分子描述符的程序计算分子指纹和分子描述符，然后对ChEMBL-hERG数据集的所有化合物进行表征。将得到的13种分子描述符进行预处理，将它们的值限制在(0，1)的区间。用Excel建立输入文件，每一行为一个分子的信息，以一维向量的方式进行分子表征，包括分子的名称/编号、活性标签(活性/阳性＝1，非活性/阴性＝0)、分子描述符和标度后的分子描述符值。输入文件保存为csv格式。

第三步，用ChEMBL-hERG训练集建立基于胶囊网络对hERG活性/非活性分子的预测模型。使用截断正态分布随机初始化网络权重，并将stddev设为0.01。以卷积操作和受限玻尔兹曼机作为特征提取器，分别采用校正线性单元和能量函数的概率分布作为激活函数。为了减少内部协变量移动，使用批处理归一化方法将每一层的输入分布归一化为标准的高斯分布。采用Adam方法进行网络优化。通过对训练集的5倍交叉验证监控多个评价指标，包括准确率、特异度、灵敏度和马修斯相关系数，获得所有超参数的最优值，在实际模型超参数调节中，根据模型的组成，本例从以下几个方面进行调试。

特征提取器的超参数调节优化采用卷积作为特征提取器。过滤器候选大小设置8×8，16×16，32×32和64×64；核函数候选数目设置2，3，4，5和6。

隐藏特征层神经元数目候选范围：64，128，256，512，1024和2048。

主胶囊层神经元数目候选范围：64，128，256，512，1024和2048。

胶囊部分路由迭代次数候选范围：从1到5，每次改变增加1。

整个网络的超参数的优化调节，(1)批处理大小(batch size)候范围：128，256，512和1028；(1)网络迭代次数(iteration epoch)候选范围：从100到1000，每次改变增加50；(3)网络学习率(learning rate of network)候选范围：从0.001到0.01，每次改变增加0.001。

第四步，将从上一步获得的最优超参数组合对模型进行设置，模型调至为测试(test)状态，用测试集验证模型的预测性能。

第五步，将未进行hERG实验测定的化合物处理后输入模型，模型调至为预测(predict)状态。运行结束后，查看输出文件，预测结果：0表示对hERG无抑制，1表示对hERG有抑制。

实施例2.

仍然预测hERG(human ether-a-go-go-related gene)编码的钾离子通道的活性化合物，以受限玻尔兹曼机作为特征提取器。

在第一、第二步与实施例1过程相同。

第三步，用ChEMBL-hERG训练集建立基于胶囊网络对hERG活性/非活性分子的预测模型。使用截断正态分布随机初始化网络权重，并将stddev设为0.01。特征提取器采用受限玻尔兹曼机。能量函数的概率分布作为激活函数。为了减少内部协变量移动，使用批处理归一化方法将每一层的输入分布归一化为标准的高斯分布。采用Adam方法进行网络优化。通过对训练集的5倍交叉验证监控多个评价指标(准确率、特异度、灵敏度和马修斯相关系数等)获得所有超参数的最优值，在实际模型超参数调节中，根据模型的组成，本例从以下几个方面进行调试。

受限玻尔兹曼机候选数目：2，3，4和5。

每一个受限玻尔兹曼机的神经元候选数目：64，128，256，512，1024和2048。

受限玻尔兹曼机的候选迭代次数从100到1000，每次改变增加50。

受限玻尔兹曼机的候选学习率从0.001到0.01，每次改变增加0.001。

整个网络的超参数的优化调节：(1)批处理大小(batch size)候范围：128，256，512和1028；(1)网络迭代次数(iteration epoch)候选范围：从100到1000，每次改变增加50；(3)网络学习率(learning rate of network)候选范围：从0.001到0.01，每次改变增加0.001。

第四步、第五步与实施例1相同。

本实施例1、2采用以下公式进行评估验证：

采用卷积和受限玻尔兹曼机分别作为特征提取器时，对测试集的总体预测精度都在90％左右，说明建立的模型对独立于训练集的化合物也有很好的预测能力。

Claims

1.一种基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：收集通过实验测定的某种特定的药物分子药代动力学性质或毒性的已知化合物及其活性标签，构建全面的分子指纹和分子描述符藉以表征小分子，建立模型的前期准备工作；然后在上层低级特征中，通过卷积或者受限玻尔兹曼机操作抽取分子的低级特征内容，再在下一层高级特征中，利用胶囊网络的方法来抽象分子的高级特征，通过动态路由算法拟合高级特征与活性标签之间的关系并拟合高级特征与活性标签之间的关系，从而用于预测未知小分子的药代动力学性质和毒性分类的方法；

包括如下六个步骤：

(1)训练集的准备：包括，收集化合物，化合物预处理，建立特定活性的数据集，训练集的准备采用同时包含小分子结构及其特定的活性标签的数据，如果活性信息是定量表示，选择合理的阈值转为定性表示，活性＝1；非活性＝0，以sdf格式保存；

(2)分子描述符的计算；

分子描述符包括了机器学习方法建立药代动力学和毒性预测模型中最常用的13种，即脂水分配系数、表观分配系数、分子溶解度、分子量、氢键供体数、氢键受体数、可旋转键的数目、环的数目、芳香环的数目、氧原子和氢原子的数目之和、极性表面积、分子部分极性表面积和分子表面积；所有分子描述符的计算通过开源PaDEL-Descriptor或DiscoveryStudio程序完成；

(3)分子指纹的计算；采用基于子结构特征的166位MACCS分子指纹来表征分子的结构，通过RDKit软件完成分子指纹的计算；

(4)分子描述符的预处理；不同分子描述符的值的范围差异很大，通过预处理将它们的值限制在(0，1)的区间；采用一维向量表征化合物，包括化合物名称、活性标签、分子指纹和标度后的分子描述符值，以csv格式保存；

(5)上一层低级特征u_i和下一层高级特征U_j分类模型的建立；先通过以卷积操作作为特征提取器获得分子的低级特征，或者通过受限玻尔兹曼机操作获得分子的低级特征，再利用胶囊网络的方法来抽象分子的高级特征，并通过动态路由算法拟合高级特征与活性标签之间的关系，在动态路由中不断更新两个权重，即低级特征u_i和高级特征U_j之间的权重/耦合系数c_ij以及低级特征映射到高级特征的可能性b_ij，获得最优的“共识”预测结果；

2.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：所述在利用胶囊网络的方法来抽象分子的高级特征中，假设上一层已有分子的低级特征u₁，u₂和u₃…u_n，下一层有分子的高级特征U₁和U₂；

3.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：

以卷积操作作为特征提取器获得分子的低级特征的步骤是：

3)将卷积层获得的低级特征通过全连接操作映射到隐藏特征层hidden featurelayer，优化调节隐藏特征层的神经元数目nodes；

4)将上层的特征向量输出通过全连接操作全部映射并激活到主胶囊层PrimaryCapslayer，优化调节主胶囊层神经元数目以及该层中每一个胶囊的维度dimension；

U_j＝W_ij·u_i，

i表示较低层的胶囊，j表示较高层的胶囊；

3)加权求和，对获得高级特征向量进行加权求和s_j：

v_j表示数字胶囊层的向量输出。

4.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：通过动态路由算法拟合高级特征与活性标签之间的关系，将上层胶囊的所有特征输送到下层的任何一个胶囊中，自动调整其权重，动态路由算法的步骤为：

3)循环执行步骤4)到步骤7)r次；

5)针对l+1层的胶囊向量，加权求和s_j；

5.如权利要求4所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：所述根据胶囊封装后输出U_j和针对l+1层的胶囊向量，采用向量的非线性激活激活s_j得到v_j的关系更新定义l层的胶囊向量连接到下一层胶囊向量的可能性b_i,j，是用U_j和v_j的点积来更新b_i,j。

6.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：所述采用受限玻尔兹曼机作为特征来获得分子的低级特征的步骤是：

3)将上层的特征向量输出通过全连接操作全部映射并激活到主胶囊层PrimaryCapslayer，优化调节主胶囊层神经元数目以及该层中每一个胶囊的维度dimension；

4)将主胶囊层的所有输出映射到数字胶囊层DigitCaps layer，优化调节路由迭代次数Routing time。

7.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：

所述在步骤(2)分子描述符的计算和(3)分子指纹计算中，选择开源PaDEL-Descriptor或RDKit或商业版Discovery Studio程序完成全部分子描述符和分子指纹的计算工作；

所述在步骤(6)预测未知化合物的活性中，根据胶囊的定义，每个胶囊的长度表示其特征内容出现的概率，最后根据数字胶囊层输出的长度预测化合物有无活性，做分类时取输出向量的长度即可。

8.如权利要求7所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：所述胶囊的长度由间隔损失margin loss计算：

L_k＝T_k max(0,m⁺-||v_k||)²+λ(1-T_k)max(0,||v_k||-m^-)²

k表示分类，T_k是分类的指示函数，m⁺为上界，m-为下界，λ是比例系数，总损失是各个样例损失之和；一般设置是：如果k类存在，||v_k||不会小于0.9，如果k类不存在，||v_k||不会大于0.1。

9.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：除了在各个步骤中涉及到的超参数，包括过滤器的数目和大小、各层的神经元数目、迭代次数需要优化调节以外，还需要对整个网络的超参数进行优化调节，包括批处理大小、迭代次数以及网络学习率，通过对训练集进行5倍交叉验证获得所有超参数的最优值，然后将其用于模型设置，实现对未知化合物的活性预测。

10.如权利要求1所述的基于胶囊网络的全新的药物分子药代动力学性质和毒性预测方法，其特征在于：使用独立于训练集以外的测试集对所建立的预测模型的性能进行验证，采用以下公式进行评估：