CN116612831A

CN116612831A - 深度学习结合模式生物斑马鱼的化学物质安全性评估方法

Info

Publication number: CN116612831A
Application number: CN202310742263.9A
Authority: CN
Inventors: 翁祖铨; 叶昭庭; 钟意; 苏嘉怡
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-08-18

Abstract

本发明提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法，包括以下步骤；步骤S1、收集已知的化合物毒性数据信息形成数据集，划分为多个化合物种类和多个毒性种类，并标注有无毒性；步骤S2、转换数据集中化合物的SMILES分子结构数据，得到化合物的分子图，作为GRU‑GCN网络模型的输入；步骤S3、构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU‑GCN；步骤S4、将步骤S2得到的分子图输入到GRU‑GCN网络中，经迭代训练获得GRU‑GCN网络模型的权重参数；步骤S5、使用步骤S4训练好的GRU‑GCN模型，输入需要预测的化合物分子图，待模型提取到结构特征后，通过决策函数输出毒性预测结果；本发明可通过预测化合物对斑马鱼的毒性来筛选出存在安全性隐患的化合物。

Description

深度学习结合模式生物斑马鱼的化学物质安全性评估方法

技术领域

本发明涉及人工智能以及生物信息，毒理学和计算机辅助药物设计技术领域，尤其是深度学习结合模式生物斑马鱼的化学物质安全性评估方法。

背景技术

在现代社会中，人们无可避免地需要接触众多人工制造的化合物，这些化学物质可能存在于药品、杀虫剂、食品添加剂、工业化合物等多种化合物中。然而，在这些化合物中有很多没有进行毒理学评估，这可能极大地威胁人们的生命安全。因此，大批量地评估这些化合物的安全性能够在很大程度上预防这些化合物可能产生的危害。检测化合物对人体危害的策略目前主要有两种：一种是实验鉴定，另一种是使用人工智能技术进行数据挖掘和智能预测。前者主要专注于生物学和临床的实验来确定化合物对人的危害，但是这种鉴定方式存在样本获取难度大，实验耗材、时间成本高昂、检测范围狭隘、实验难以批量进行等问题。而人工智能方法具有成本小，速度快，同时处理数据量大等优点，使用人工智能方法进行化合物安全性检测是解决上述问题的优质方案。深度学习是机器学习算法中的一类，因其强大的预测能力和特征捕捉能力得到广泛的应用。相比于其它机器学习方法(如逻辑回归，随机森林等)，深度学习更能高效并且自动提取化合物分子的特征(如功能基团等)。由于化合物的所引起的毒性往往和其化学结构上某些基团有关，例如甲醛的致癌性是由于其羰基可以与DNA结合并导致DNA损伤；对二甲苯比间二甲苯更具毒性，因为它的苯环上的氢原子可以被卤素或烷基取代，这些取代基会影响其代谢和排泄。通过深度学习算法捕捉化合物分子结构中的毒性结构不仅大大降低了化合物安全性检测的成本，而且为大批量，大范围地检测化合物毒性提供可靠方案。

除此之外，深度学习的广泛应用体现在针对不同的学科领域都具备对应的先进的算法，如卷积神经网络应用于图像处理领域，长短期记忆网络应用于自然语言处理领域。对于图像处理领域，卷积神经网络算法也在不断的进行优化，特别是在处理不规则的图结构(如分子结构，社交网络等)时,也提出了针对不规则图的卷积算法以实现更好的预测性能。

分子图(Molecular Graph)能够直接表示化合物的分子结构，它通过节点和边的方式表示分子中的原子和它们之间的化学键。在分子图中，每个原子被表示为一个节点，而原子之间的化学键则通过边连接起来。通过获得分子的拓扑信息，如分子的环结构、分支情况和孤立原子等，分子图能够准确地描述分子的结构。由于化合物的结构可以被理解成图的结构，因此研究其化学结构和性质的关系特别适合用图神经网络进行处理，可以提升其预测性能。斑马鱼与人类的基因相似性高达87％，适用于作为体内实验样本预测各类化学物质对人体的影响。通过预测化合物对斑马鱼的毒性，可以很好地筛选出存在安全性隐患的化合物，为日常生活的安全性添加保障。本发明正是利用图卷积网络以及化合物化学结构来实现对化合物安全性的评估。

发明内容

本发明提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法，通过预测化合物对斑马鱼的毒性，可以很好地筛选出存在安全性隐患的化合物，为日常生活的安全性添加保障。

本发明采用以下技术方案。

深度学习结合模式生物斑马鱼的化学物质安全性评估方法，所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性，并以此评估化合物的安全性；所述方法包括以下步骤；

步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集，根据化合物来源将化合物划分为多个化合物种类，把毒性数据根据毒性种类划分为多个毒性数据集，并标注每个数据集中各化合物有无毒性；

步骤S2、转换数据集的化合物的SMILES分子结构数据，得到化合物的分子图，作为GRU-GCN网络模型的输入；

步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi-GRU-Att，输出全局特征的Readout函数和全连接层，构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU-GCN；

步骤S4、将步骤S2得到的分子图输入到GRU-GCN网络中，经迭代训练获得GRU-GCN网络模型的权重参数；

步骤S5、使用步骤S4训练好的GRU-GCN模型，输入需要预测的化合物的分子图，待模型提取到化合物的结构特征后，通过决策函数输出预测结果，判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。

所述步骤S1中，数据集的数据为对斑马鱼具有毒性的化合物数据，包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息；

化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类；所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性；所述标签为每个数据集中的每个化合物针对斑马鱼的毒性，有毒的被标记为1，无毒的标记为0。

所述步骤S2中，化合物的SMILES分子结构数据为计算机可解码的分子结构形式，包括原子拓扑排列信息、化学键连接方式；

步骤S2中，利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象，再对分子对象进行拓扑结构的提取以提取分子节点和边的信息，其中节点表示分子中的原子，边表示连接原子的化学键，构建分子图的邻接矩阵作为模型的输入。

步骤S3在构建模型过程中，使用用于提取每个原子特征的图卷积网络GCN，随后采用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野；在池化层使用Readout函数输出分子图的全局特征，最后使用全连接层作为最终的决策模块。

所述步骤S1中，数据集随机分为训练样本、验证样本和测试样本三类；在步骤S4中的GRU-GCN网络模型训练中，使用预处理好的训练样本作为输入进行有监督的模型训练，通过反向传播更新权重，通过图形处理GPU进行模型推理，在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性；

预处理好的测试样本输入GRU-GCN网络对网络性能进行测试；模型优化的目标函数为二分类交叉熵Binary cross entropy，其定义为：

其中y是二元标签0或者1，p(y)是输出属于y标签的概率，Loss表示损失函数；

所述GRU-GCN网络模型的权重更新采用梯度下降，以公式表述为

其中η是学习率。

在构建模型时，使用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野；双向门控循环单元的Bi-GRU层增强节点的特征使其具有不同大小的感受野；

注意力机制通过为每个GCN层分配一个注意力得分/>来确定对每个节点具有意义的感受野，其中每个/>代表节点v在第l层所学习到的特征的权重；注意力得分最高的层成为节点v的感受野，节点v的最终特征由每一层特征的加权平均值确定，以公式表述为；

节点特征作为Bi-GRU层的输入，用于生成前向GRU和后向GRU隐藏层状态和，/>其中K表示输出维度；

将和/>连接组成隐藏层状态/>该向量包含更丰富的信息，并且

能够捕获每个节点v的GCN层之间的依赖关系，即时间步长；

包含了所有来自GCN层的节点v的特征；

ΘRtt∈R^1×2K是一个将Z_v映射到标量值的权重矩阵，同时softmax函数产生了所有的GCN层注意力分数加权和由S_v和隐藏层状态Z_v相乘得到，并作为最终节点特征/>

池化层的Readout函数定义为：

其中h_i是第i个节点的特征向量，N是图中节点的数量，r是聚合后的全局特征向量，最后通过全连接层得到模型的输出，定义如下：

y＝σ(Wx+b) 公式十八；

其中输入向量为x∈Rⁿ，全连接层的权重矩阵为W∈R^m×n，偏置向量为b∈R^m，激活函数σ采用sigmoid,其定义为

所述图卷积网络用于提取到化合物的分子结构特征与标签的关系，在图卷积网络后添加具有注意力机制的双向门控循环单元Bi-GRU-Att以确定分子图中每个节点的感受野，优化GRU-GCN对分子图的特征的学习以提取有意义的子结构；

在图卷积网络中，每一个分子被认为是一张图的结构，网络正向传播过程中，图神经网络随机选择一个原子作为中心，并将其输入的初始化特征作为第零层，第一层将离中心原子的最近的邻居原子的特征加和到中心原子身上，依次迭代，使中心原子获得了临近所有原子的所有特征并将其作为最终中心原子的特征；其过程以公式表述为：

其中L代表图卷积的层数，代表每个原子在不同层下的特征，/>代表权重矩阵，N代表原子邻居的个数。

本发明公开了深度学习结合模式生物斑马鱼的化学物质安全性评估方法，并提出一种能够有效提取化合物分子中的毒性子结构的GRU-GRU-GCN网络模型，该模型通过预测化合物对斑马鱼的毒性来评估化合物的安全性；本发明从大量公开文献中收集已被证实对斑马鱼具有或不具有发育毒性或神经毒性的化合物数据，根据毒性种类不同将数据划分五个毒性数据集，并以是否具有对应毒性作为标签，对标签训练基于图卷积以及全连的深度学习网络。

本发明提供四种经典机器学习模型和四种经典机器学习模型作为基准模型，与GRU-GRU-GCN网络模型分别在五种毒性数据集上进行预测性能的比较。实验结果表明，GRU-GRU-GCN网络模型的预测效果和性能整体上相较于各基准模型有显著的提高，是一种快速且大批量地分析化合物毒性的可靠方法，为日常生活中的化合物的使用提供了安全性保障

本发明所采用的图卷积网络可以很好的提取到化合物的分子结构特征与标签的关系，本发明在图卷积网络后添加具有注意力机制的双向门控循环单元(Bi-GRU-Att)以确定分子图中每个节点的感受野，有助于GRU-GCN学习分子图的特征，提取有意义的子结构；同时本发明所设计的注意力机制可以在很大程度上提升运算效率，提高预测的准确性以及模型的鲁棒性。

本发明的优点在于：提出了一种具有注意力机制的双向门控循环单元的图神经模型GRU-GCN，提高了模型的预测性能以及模型的鲁棒性，使模型具有可解释性；提出了通过预测化合物对斑马鱼毒性以评估化合物毒性的思路以及可行方案；本发明只需要通过化合物的化学结构，不需要其它的化合物信息就可以推理出化合物是否具有毒性，具有检测速度快，成本低，大批量等优势。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明的整体学习及预测示意图；

附图2是本发明的深度神经网络结构示意图；

附图3是本发明的化合物类别在不同毒性数据集中分布示意图；

附图4是本发明模型预测性能与基准模型对比表示意图。

具体实施方式

如图所示，深度学习结合模式生物斑马鱼的化学物质安全性评估方法，所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性，并以此评估化合物的安全性；所述方法包括以下步骤；

所述GRU-GCN网络模型的权重更新采用梯度下降，以公式表述为

其中η是学习率。

将和/>连接组成隐藏层状态/>该向量包含更丰富的信息，并且能够捕获每个节点v的GCN层之间的依赖关系，即时间步长；

包含了所有来自GCN层的节点v的特征；

ΘAtt∈R^1×2K是一个将Z_v映射到标量值的权重矩阵，同时softmax函数产生了所有的GCN层注意力分数加权和由S_v和隐藏层状态Z_v相乘得到，并作为最终节点特征/>池化层的Readout函数定义为：

y＝σ(Wx+b) 公式十八；

本例中，从现有的知识数据(数据库，文献)中提取对斑马鱼具有毒性的化合物数据共1596条，其中来自于药物的有451条，来自于杀虫剂的有110条，来自于食品添加剂的有392条、来自于工业化合物的有369条以及其他化合物691条。所有的数据包括化合物名称、化合物SMILES(分子线性输入规范)、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献等主要信息。将数据按毒性种类分为心脏水肿毒性、脊柱畸形毒性、心脏毒性标签、卵黄囊毒性、神经毒性五个数据集。其中模型的训练和预测标签为每个数据集中的每个化合物的毒性，有毒的被标记为1，无毒的标记为0。数据集随机分为训练样本(70％)、验证样本(10％)和测试样本(20％)三类。

本例对模型输入进行预处理：即通过提取收集的数据信息中的化合物SMILES(一种计算机可解码的分子结构形式)的结构特征(如原子拓扑排列信息、化学键连接方式等)，并利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象。对分子对象进行拓扑结构的提取，提取分子节点和边的信息，其中节点表示分子中的原子，边表示连接原子的化学键，构建分子图的邻接矩阵作为模型的输入。

本例中，模型训练完成后分别在心脏水肿毒性、脊柱畸形毒性、心脏毒性标签、卵黄囊毒性、神经毒性五个数据集上进行预测效果评估。评估标准包括预测准确率、受试者工作特征-曲线下面积(AUROC)以及PR曲线下面积(AUPR)来衡量模型的性能。本模型在各数据集中预测最优准确率达0.860，AUROC值达0.709，AUPR值达0.447，其性能整体上优于基准模型，其中AUROC值相较于基准模型有显著提升。

从结果看，相较于基准模型，GRU-GCN模型具有更优秀的预测效果以性能，是本发明可靠性的保障。其输入为化合物分子结构，通过图卷积网络及具有注意力机制的双向门控循环单元来提取化合物特征来预测化合物对斑马鱼的毒性作用，最终得到预测结果。目前神经网络可预测5种化合物对斑马鱼产生的常见毒性，越来越多的毒性种类以及化合物将会纳入到本发明中。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性，并以此评估化合物的安全性；所述方法包括以下步骤；

2.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：所述步骤S1中，数据集的数据为对斑马鱼具有毒性的化合物数据，包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息；

3.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：所述步骤S2中，化合物的SMILES分子结构数据为计算机可解码的分子结构形式，包括原子拓扑排列信息、化学键连接方式；

4.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：步骤S3在构建模型过程中，使用用于提取每个原子特征的图卷积网络GCN，随后采用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野；在池化层使用Readout函数输出分子图的全局特征，最后使用全连接层作为最终的决策模块。

5.根据权利要求4所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：所述步骤S1中，数据集随机分为训练样本、验证样本和测试样本三类；在步骤S4中的GRU-GCN网络模型训练中，使用预处理好的训练样本作为输入进行有监督的模型训练，通过反向传播更新权重，通过图形处理GPU进行模型推理，在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性；

所述GRU-GCN网络模型的权重更新采用梯度下降，以公式表述为

其中η是学习率。

6.根据权利要求5所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：在构建模型时，使用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野；双向门控循环单元的Bi-GRU层增强节点的特征使其具有不同大小的感受野；

节点特征作为Bi-GRU层的输入，用于生成前向GRU和后向GRU隐藏层状态和，/>其中K表示输出维度；将/>和/>连接组成隐藏层状态该向量包含更丰富的信息，并且能够捕获每个节点v的GCN层之间的依赖关系，即时间步长；

包含了所有来自GCN层的节点v的特征；

ΘAtt∈R^1×2K是一个将Z_v映射到标量值的权重矩阵，同时softmax函数产生了所有的GCN层注意力分数加权和由S_v和隐藏层状态Z_v相乘得到，并作为最终节点特征

池化层的Readout函数定义为：

y＝σ(Wx+b) 公式十八；

其中输入向量为x∈Rⁿ，全连接层的权重矩阵为W∈R^m×n，偏置向量为b∈R^m，

激活函数σ采用sigmoid,其定义为

7.根据权利要求6所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法，其特征在于：所述图卷积网络用于提取到化合物的分子结构特征与标签的关系，在图卷积网络后添加具有注意力机制的双向门控循环单元Bi-GRU-Att以确定分子图中每个节点的感受野，优化GRU-GCN对分子图的特征的学习以提取有意义的子结构；