CN116612831A - 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 - Google Patents
深度学习结合模式生物斑马鱼的化学物质安全性评估方法 Download PDFInfo
- Publication number
- CN116612831A CN116612831A CN202310742263.9A CN202310742263A CN116612831A CN 116612831 A CN116612831 A CN 116612831A CN 202310742263 A CN202310742263 A CN 202310742263A CN 116612831 A CN116612831 A CN 116612831A
- Authority
- CN
- China
- Prior art keywords
- compound
- toxicity
- gru
- molecular
- gcn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000252212 Danio rerio Species 0.000 title claims abstract description 32
- 239000000126 substance Substances 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 title claims abstract description 10
- 150000001875 compounds Chemical class 0.000 claims abstract description 117
- 230000001988 toxicity Effects 0.000 claims abstract description 68
- 231100000419 toxicity Toxicity 0.000 claims abstract description 68
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 231100000048 toxicity data Toxicity 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000000547 structure data Methods 0.000 claims abstract description 7
- 230000001537 neural effect Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000005096 rolling process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 206010029350 Neurotoxicity Diseases 0.000 claims description 10
- 206010044221 Toxic encephalopathy Diseases 0.000 claims description 10
- 230000007135 neurotoxicity Effects 0.000 claims description 10
- 231100000228 neurotoxicity Toxicity 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 231100000331 toxic Toxicity 0.000 claims description 10
- 230000002588 toxic effect Effects 0.000 claims description 10
- 206010058907 Spinal deformity Diseases 0.000 claims description 9
- 231100000259 cardiotoxicity Toxicity 0.000 claims description 9
- 208000009447 Cardiac Edema Diseases 0.000 claims description 8
- 206010048610 Cardiotoxicity Diseases 0.000 claims description 8
- 230000007681 cardiovascular toxicity Effects 0.000 claims description 8
- 210000001325 yolk sac Anatomy 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 5
- 239000002778 food additive Substances 0.000 claims description 5
- 235000013373 food additive Nutrition 0.000 claims description 5
- 239000000575 pesticide Substances 0.000 claims description 5
- 231100000252 nontoxic Toxicity 0.000 claims description 4
- 230000003000 nontoxic effect Effects 0.000 claims description 4
- 231100000605 Toxicity Class Toxicity 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 231100000778 chemical safety assessment Toxicity 0.000 claims 3
- 125000004429 atom Chemical group 0.000 description 28
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- URLKBWYHVLBVBO-UHFFFAOYSA-N Para-Xylene Chemical group CC1=CC=C(C)C=C1 URLKBWYHVLBVBO-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- IVSZLXZYQVIEFR-UHFFFAOYSA-N m-xylene Chemical group CC1=CC=CC(C)=C1 IVSZLXZYQVIEFR-UHFFFAOYSA-N 0.000 description 2
- 206010007269 Carcinogenicity Diseases 0.000 description 1
- 206010011732 Cyst Diseases 0.000 description 1
- 230000005778 DNA damage Effects 0.000 description 1
- 231100000277 DNA damage Toxicity 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 125000000217 alkyl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 230000007670 carcinogenicity Effects 0.000 description 1
- 231100000260 carcinogenicity Toxicity 0.000 description 1
- 231100000026 common toxicity Toxicity 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007673 developmental toxicity Effects 0.000 description 1
- 231100000415 developmental toxicity Toxicity 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 125000005843 halogen group Chemical group 0.000 description 1
- 230000007678 heart toxicity Effects 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 108010008359 protein kinase C lambda Proteins 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 231100000027 toxicology Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Databases & Information Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法,包括以下步骤;步骤S1、收集已知的化合物毒性数据信息形成数据集,划分为多个化合物种类和多个毒性种类,并标注有无毒性;步骤S2、转换数据集中化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU‑GCN网络模型的输入;步骤S3、构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU‑GCN;步骤S4、将步骤S2得到的分子图输入到GRU‑GCN网络中,经迭代训练获得GRU‑GCN网络模型的权重参数;步骤S5、使用步骤S4训练好的GRU‑GCN模型,输入需要预测的化合物分子图,待模型提取到结构特征后,通过决策函数输出毒性预测结果;本发明可通过预测化合物对斑马鱼的毒性来筛选出存在安全性隐患的化合物。
Description
技术领域
本发明涉及人工智能以及生物信息,毒理学和计算机辅助药物设计技术领域,尤其是深度学习结合模式生物斑马鱼的化学物质安全性评估方法。
背景技术
在现代社会中,人们无可避免地需要接触众多人工制造的化合物,这些化学物质可能存在于药品、杀虫剂、食品添加剂、工业化合物等多种化合物中。然而,在这些化合物中有很多没有进行毒理学评估,这可能极大地威胁人们的生命安全。因此,大批量地评估这些化合物的安全性能够在很大程度上预防这些化合物可能产生的危害。检测化合物对人体危害的策略目前主要有两种:一种是实验鉴定,另一种是使用人工智能技术进行数据挖掘和智能预测。前者主要专注于生物学和临床的实验来确定化合物对人的危害,但是这种鉴定方式存在样本获取难度大,实验耗材、时间成本高昂、检测范围狭隘、实验难以批量进行等问题。而人工智能方法具有成本小,速度快,同时处理数据量大等优点,使用人工智能方法进行化合物安全性检测是解决上述问题的优质方案。深度学习是机器学习算法中的一类,因其强大的预测能力和特征捕捉能力得到广泛的应用。相比于其它机器学习方法(如逻辑回归,随机森林等),深度学习更能高效并且自动提取化合物分子的特征(如功能基团等)。由于化合物的所引起的毒性往往和其化学结构上某些基团有关,例如甲醛的致癌性是由于其羰基可以与DNA结合并导致DNA损伤;对二甲苯比间二甲苯更具毒性,因为它的苯环上的氢原子可以被卤素或烷基取代,这些取代基会影响其代谢和排泄。通过深度学习算法捕捉化合物分子结构中的毒性结构不仅大大降低了化合物安全性检测的成本,而且为大批量,大范围地检测化合物毒性提供可靠方案。
除此之外,深度学习的广泛应用体现在针对不同的学科领域都具备对应的先进的算法,如卷积神经网络应用于图像处理领域,长短期记忆网络应用于自然语言处理领域。对于图像处理领域,卷积神经网络算法也在不断的进行优化,特别是在处理不规则的图结构(如分子结构,社交网络等)时,也提出了针对不规则图的卷积算法以实现更好的预测性能。
分子图(Molecular Graph)能够直接表示化合物的分子结构,它通过节点和边的方式表示分子中的原子和它们之间的化学键。在分子图中,每个原子被表示为一个节点,而原子之间的化学键则通过边连接起来。通过获得分子的拓扑信息,如分子的环结构、分支情况和孤立原子等,分子图能够准确地描述分子的结构。由于化合物的结构可以被理解成图的结构,因此研究其化学结构和性质的关系特别适合用图神经网络进行处理,可以提升其预测性能。斑马鱼与人类的基因相似性高达87%,适用于作为体内实验样本预测各类化学物质对人体的影响。通过预测化合物对斑马鱼的毒性,可以很好地筛选出存在安全性隐患的化合物,为日常生活的安全性添加保障。本发明正是利用图卷积网络以及化合物化学结构来实现对化合物安全性的评估。
发明内容
本发明提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法,通过预测化合物对斑马鱼的毒性,可以很好地筛选出存在安全性隐患的化合物,为日常生活的安全性添加保障。
本发明采用以下技术方案。
深度学习结合模式生物斑马鱼的化学物质安全性评估方法,所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性,并以此评估化合物的安全性;所述方法包括以下步骤;
步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集,根据化合物来源将化合物划分为多个化合物种类,把毒性数据根据毒性种类划分为多个毒性数据集,并标注每个数据集中各化合物有无毒性;
步骤S2、转换数据集的化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU-GCN网络模型的输入;
步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi-GRU-Att,输出全局特征的Readout函数和全连接层,构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU-GCN;
步骤S4、将步骤S2得到的分子图输入到GRU-GCN网络中,经迭代训练获得GRU-GCN网络模型的权重参数;
步骤S5、使用步骤S4训练好的GRU-GCN模型,输入需要预测的化合物的分子图,待模型提取到化合物的结构特征后,通过决策函数输出预测结果,判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。
所述步骤S1中,数据集的数据为对斑马鱼具有毒性的化合物数据,包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息;
化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类;所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性;所述标签为每个数据集中的每个化合物针对斑马鱼的毒性,有毒的被标记为1,无毒的标记为0。
所述步骤S2中,化合物的SMILES分子结构数据为计算机可解码的分子结构形式,包括原子拓扑排列信息、化学键连接方式;
步骤S2中,利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象,再对分子对象进行拓扑结构的提取以提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。
步骤S3在构建模型过程中,使用用于提取每个原子特征的图卷积网络GCN,随后采用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;在池化层使用Readout函数输出分子图的全局特征,最后使用全连接层作为最终的决策模块。
所述步骤S1中,数据集随机分为训练样本、验证样本和测试样本三类;在步骤S4中的GRU-GCN网络模型训练中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;
预处理好的测试样本输入GRU-GCN网络对网络性能进行测试;模型优化的目标函数为二分类交叉熵Binary cross entropy,其定义为:
其中y是二元标签0或者1,p(y)是输出属于y标签的概率,Loss表示损失函数;
所述GRU-GCN网络模型的权重更新采用梯度下降,以公式表述为
其中η是学习率。
在构建模型时,使用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;双向门控循环单元的Bi-GRU层增强节点的特征使其具有不同大小的感受野;
注意力机制通过为每个GCN层分配一个注意力得分/>来确定对每个节点具有意义的感受野,其中每个/>代表节点v在第l层所学习到的特征的权重;注意力得分最高的层成为节点v的感受野,节点v的最终特征由每一层特征的加权平均值确定,以公式表述为;
节点特征作为Bi-GRU层的输入,用于生成前向GRU和后向GRU隐藏层状态和,/>其中K表示输出维度;
将和/>连接组成隐藏层状态/>该向量包含更丰富的信息,并且
能够捕获每个节点v的GCN层之间的依赖关系,即时间步长;
包含了所有来自GCN层的节点v的特征;
ΘRtt∈R1×2K是一个将Zv映射到标量值的权重矩阵,同时softmax函数产生了所有的GCN层注意力分数加权和由Sv和隐藏层状态Zv相乘得到,并作为最终节点特征/>
池化层的Readout函数定义为:
其中hi是第i个节点的特征向量,N是图中节点的数量,r是聚合后的全局特征向量,最后通过全连接层得到模型的输出,定义如下:
y=σ(Wx+b) 公式十八;
其中输入向量为x∈Rn,全连接层的权重矩阵为W∈Rm×n,偏置向量为b∈Rm,激活函数σ采用sigmoid,其定义为
所述图卷积网络用于提取到化合物的分子结构特征与标签的关系,在图卷积网络后添加具有注意力机制的双向门控循环单元Bi-GRU-Att以确定分子图中每个节点的感受野,优化GRU-GCN对分子图的特征的学习以提取有意义的子结构;
在图卷积网络中,每一个分子被认为是一张图的结构,网络正向传播过程中,图神经网络随机选择一个原子作为中心,并将其输入的初始化特征作为第零层,第一层将离中心原子的最近的邻居原子的特征加和到中心原子身上,依次迭代,使中心原子获得了临近所有原子的所有特征并将其作为最终中心原子的特征;其过程以公式表述为:
其中L代表图卷积的层数,代表每个原子在不同层下的特征,/>代表权重矩阵,N代表原子邻居的个数。
本发明公开了深度学习结合模式生物斑马鱼的化学物质安全性评估方法,并提出一种能够有效提取化合物分子中的毒性子结构的GRU-GRU-GCN网络模型,该模型通过预测化合物对斑马鱼的毒性来评估化合物的安全性;本发明从大量公开文献中收集已被证实对斑马鱼具有或不具有发育毒性或神经毒性的化合物数据,根据毒性种类不同将数据划分五个毒性数据集,并以是否具有对应毒性作为标签,对标签训练基于图卷积以及全连的深度学习网络。
本发明提供四种经典机器学习模型和四种经典机器学习模型作为基准模型,与GRU-GRU-GCN网络模型分别在五种毒性数据集上进行预测性能的比较。实验结果表明,GRU-GRU-GCN网络模型的预测效果和性能整体上相较于各基准模型有显著的提高,是一种快速且大批量地分析化合物毒性的可靠方法,为日常生活中的化合物的使用提供了安全性保障
本发明所采用的图卷积网络可以很好的提取到化合物的分子结构特征与标签的关系,本发明在图卷积网络后添加具有注意力机制的双向门控循环单元(Bi-GRU-Att)以确定分子图中每个节点的感受野,有助于GRU-GCN学习分子图的特征,提取有意义的子结构;同时本发明所设计的注意力机制可以在很大程度上提升运算效率,提高预测的准确性以及模型的鲁棒性。
本发明的优点在于:提出了一种具有注意力机制的双向门控循环单元的图神经模型GRU-GCN,提高了模型的预测性能以及模型的鲁棒性,使模型具有可解释性;提出了通过预测化合物对斑马鱼毒性以评估化合物毒性的思路以及可行方案;本发明只需要通过化合物的化学结构,不需要其它的化合物信息就可以推理出化合物是否具有毒性,具有检测速度快,成本低,大批量等优势。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明的整体学习及预测示意图;
附图2是本发明的深度神经网络结构示意图;
附图3是本发明的化合物类别在不同毒性数据集中分布示意图;
附图4是本发明模型预测性能与基准模型对比表示意图。
具体实施方式
如图所示,深度学习结合模式生物斑马鱼的化学物质安全性评估方法,所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性,并以此评估化合物的安全性;所述方法包括以下步骤;
步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集,根据化合物来源将化合物划分为多个化合物种类,把毒性数据根据毒性种类划分为多个毒性数据集,并标注每个数据集中各化合物有无毒性;
步骤S2、转换数据集的化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU-GCN网络模型的输入;
步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi-GRU-Att,输出全局特征的Readout函数和全连接层,构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU-GCN;
步骤S4、将步骤S2得到的分子图输入到GRU-GCN网络中,经迭代训练获得GRU-GCN网络模型的权重参数;
步骤S5、使用步骤S4训练好的GRU-GCN模型,输入需要预测的化合物的分子图,待模型提取到化合物的结构特征后,通过决策函数输出预测结果,判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。
所述步骤S1中,数据集的数据为对斑马鱼具有毒性的化合物数据,包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息;
化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类;所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性;所述标签为每个数据集中的每个化合物针对斑马鱼的毒性,有毒的被标记为1,无毒的标记为0。
所述步骤S2中,化合物的SMILES分子结构数据为计算机可解码的分子结构形式,包括原子拓扑排列信息、化学键连接方式;
步骤S2中,利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象,再对分子对象进行拓扑结构的提取以提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。
步骤S3在构建模型过程中,使用用于提取每个原子特征的图卷积网络GCN,随后采用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;在池化层使用Readout函数输出分子图的全局特征,最后使用全连接层作为最终的决策模块。
所述步骤S1中,数据集随机分为训练样本、验证样本和测试样本三类;在步骤S4中的GRU-GCN网络模型训练中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;
预处理好的测试样本输入GRU-GCN网络对网络性能进行测试;模型优化的目标函数为二分类交叉熵Binary cross entropy,其定义为:
其中y是二元标签0或者1,p(y)是输出属于y标签的概率,Loss表示损失函数;
所述GRU-GCN网络模型的权重更新采用梯度下降,以公式表述为
其中η是学习率。
在构建模型时,使用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;双向门控循环单元的Bi-GRU层增强节点的特征使其具有不同大小的感受野;
注意力机制通过为每个GCN层分配一个注意力得分/>来确定对每个节点具有意义的感受野,其中每个/>代表节点v在第l层所学习到的特征的权重;注意力得分最高的层成为节点v的感受野,节点v的最终特征由每一层特征的加权平均值确定,以公式表述为;
节点特征作为Bi-GRU层的输入,用于生成前向GRU和后向GRU隐藏层状态和,/>其中K表示输出维度;
将和/>连接组成隐藏层状态/>该向量包含更丰富的信息,并且能够捕获每个节点v的GCN层之间的依赖关系,即时间步长;
包含了所有来自GCN层的节点v的特征;
ΘAtt∈R1×2K是一个将Zv映射到标量值的权重矩阵,同时softmax函数产生了所有的GCN层注意力分数加权和由Sv和隐藏层状态Zv相乘得到,并作为最终节点特征/>池化层的Readout函数定义为:
其中hi是第i个节点的特征向量,N是图中节点的数量,r是聚合后的全局特征向量,最后通过全连接层得到模型的输出,定义如下:
y=σ(Wx+b) 公式十八;
其中输入向量为x∈Rn,全连接层的权重矩阵为W∈Rm×n,偏置向量为b∈Rm,激活函数σ采用sigmoid,其定义为
所述图卷积网络用于提取到化合物的分子结构特征与标签的关系,在图卷积网络后添加具有注意力机制的双向门控循环单元Bi-GRU-Att以确定分子图中每个节点的感受野,优化GRU-GCN对分子图的特征的学习以提取有意义的子结构;
在图卷积网络中,每一个分子被认为是一张图的结构,网络正向传播过程中,图神经网络随机选择一个原子作为中心,并将其输入的初始化特征作为第零层,第一层将离中心原子的最近的邻居原子的特征加和到中心原子身上,依次迭代,使中心原子获得了临近所有原子的所有特征并将其作为最终中心原子的特征;其过程以公式表述为:
其中L代表图卷积的层数,代表每个原子在不同层下的特征,/>代表权重矩阵,N代表原子邻居的个数。
本例中,从现有的知识数据(数据库,文献)中提取对斑马鱼具有毒性的化合物数据共1596条,其中来自于药物的有451条,来自于杀虫剂的有110条,来自于食品添加剂的有392条、来自于工业化合物的有369条以及其他化合物691条。所有的数据包括化合物名称、化合物SMILES(分子线性输入规范)、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献等主要信息。将数据按毒性种类分为心脏水肿毒性、脊柱畸形毒性、心脏毒性标签、卵黄囊毒性、神经毒性五个数据集。其中模型的训练和预测标签为每个数据集中的每个化合物的毒性,有毒的被标记为1,无毒的标记为0。数据集随机分为训练样本(70%)、验证样本(10%)和测试样本(20%)三类。
本例对模型输入进行预处理:即通过提取收集的数据信息中的化合物SMILES(一种计算机可解码的分子结构形式)的结构特征(如原子拓扑排列信息、化学键连接方式等),并利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象。对分子对象进行拓扑结构的提取,提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。
本例中,模型训练完成后分别在心脏水肿毒性、脊柱畸形毒性、心脏毒性标签、卵黄囊毒性、神经毒性五个数据集上进行预测效果评估。评估标准包括预测准确率、受试者工作特征-曲线下面积(AUROC)以及PR曲线下面积(AUPR)来衡量模型的性能。本模型在各数据集中预测最优准确率达0.860,AUROC值达0.709,AUPR值达0.447,其性能整体上优于基准模型,其中AUROC值相较于基准模型有显著提升。
从结果看,相较于基准模型,GRU-GCN模型具有更优秀的预测效果以性能,是本发明可靠性的保障。其输入为化合物分子结构,通过图卷积网络及具有注意力机制的双向门控循环单元来提取化合物特征来预测化合物对斑马鱼的毒性作用,最终得到预测结果。目前神经网络可预测5种化合物对斑马鱼产生的常见毒性,越来越多的毒性种类以及化合物将会纳入到本发明中。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (7)
1.深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述方法以GRU-GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性,并以此评估化合物的安全性;所述方法包括以下步骤;
步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集,根据化合物来源将化合物划分为多个化合物种类,把毒性数据根据毒性种类划分为多个毒性数据集,并标注每个数据集中各化合物有无毒性;
步骤S2、转换数据集的化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU-GCN网络模型的输入;
步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi-GRU-Att,输出全局特征的Readout函数和全连接层,构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU-GCN;
步骤S4、将步骤S2得到的分子图输入到GRU-GCN网络中,经迭代训练获得GRU-GCN网络模型的权重参数;
步骤S5、使用步骤S4训练好的GRU-GCN模型,输入需要预测的化合物的分子图,待模型提取到化合物的结构特征后,通过决策函数输出预测结果,判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。
2.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S1中,数据集的数据为对斑马鱼具有毒性的化合物数据,包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息;
化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类;所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性;所述标签为每个数据集中的每个化合物针对斑马鱼的毒性,有毒的被标记为1,无毒的标记为0。
3.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S2中,化合物的SMILES分子结构数据为计算机可解码的分子结构形式,包括原子拓扑排列信息、化学键连接方式;
步骤S2中,利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象,再对分子对象进行拓扑结构的提取以提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。
4.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:步骤S3在构建模型过程中,使用用于提取每个原子特征的图卷积网络GCN,随后采用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;在池化层使用Readout函数输出分子图的全局特征,最后使用全连接层作为最终的决策模块。
5.根据权利要求4所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S1中,数据集随机分为训练样本、验证样本和测试样本三类;在步骤S4中的GRU-GCN网络模型训练中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;
预处理好的测试样本输入GRU-GCN网络对网络性能进行测试;模型优化的目标函数为二分类交叉熵Binary cross entropy,其定义为:
其中y是二元标签0或者1,p(y)是输出属于y标签的概率,Loss表示损失函数;
所述GRU-GCN网络模型的权重更新采用梯度下降,以公式表述为
其中η是学习率。
6.根据权利要求5所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:在构建模型时,使用具有注意力机制的双向门控循环单元Bi-GRU-Att来确定分子图中每个节点的感受野;双向门控循环单元的Bi-GRU层增强节点的特征使其具有不同大小的感受野;
注意力机制通过为每个GCN层分配一个注意力得分/>来确定对每个节点具有意义的感受野,其中每个/>代表节点v在第l层所学习到的特征的权重;注意力得分最高的层成为节点v的感受野,节点v的最终特征由每一层特征的加权平均值确定,以公式表述为;
节点特征作为Bi-GRU层的输入,用于生成前向GRU和后向GRU隐藏层状态和,/>其中K表示输出维度;将/>和/>连接组成隐藏层状态该向量包含更丰富的信息,并且能够捕获每个节点v的GCN层之间的依赖关系,即时间步长;
包含了所有来自GCN层的节点v的特征;
ΘAtt∈R1×2K是一个将Zv映射到标量值的权重矩阵,同时softmax函数产生了所有的GCN层注意力分数加权和由Sv和隐藏层状态Zv相乘得到,并作为最终节点特征
池化层的Readout函数定义为:
其中hi是第i个节点的特征向量,N是图中节点的数量,r是聚合后的全局特征向量,最后通过全连接层得到模型的输出,定义如下:
y=σ(Wx+b) 公式十八;
其中输入向量为x∈Rn,全连接层的权重矩阵为W∈Rm×n,偏置向量为b∈Rm,
激活函数σ采用sigmoid,其定义为
7.根据权利要求6所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述图卷积网络用于提取到化合物的分子结构特征与标签的关系,在图卷积网络后添加具有注意力机制的双向门控循环单元Bi-GRU-Att以确定分子图中每个节点的感受野,优化GRU-GCN对分子图的特征的学习以提取有意义的子结构;
在图卷积网络中,每一个分子被认为是一张图的结构,网络正向传播过程中,图神经网络随机选择一个原子作为中心,并将其输入的初始化特征作为第零层,第一层将离中心原子的最近的邻居原子的特征加和到中心原子身上,依次迭代,使中心原子获得了临近所有原子的所有特征并将其作为最终中心原子的特征;其过程以公式表述为:
其中L代表图卷积的层数,代表每个原子在不同层下的特征,/>代表权重矩阵,N代表原子邻居的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310742263.9A CN116612831A (zh) | 2023-06-21 | 2023-06-21 | 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310742263.9A CN116612831A (zh) | 2023-06-21 | 2023-06-21 | 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612831A true CN116612831A (zh) | 2023-08-18 |
Family
ID=87674751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310742263.9A Pending CN116612831A (zh) | 2023-06-21 | 2023-06-21 | 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612831A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072869A (zh) * | 2024-02-27 | 2024-05-24 | 华南农业大学 | 一种基于深度生成模型的离子液体设计方法 |
-
2023
- 2023-06-21 CN CN202310742263.9A patent/CN116612831A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072869A (zh) * | 2024-02-27 | 2024-05-24 | 华南农业大学 | 一种基于深度生成模型的离子液体设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Razmjooy et al. | A study on metaheuristic-based neural networks for image segmentation purposes | |
Pourpanah et al. | A Q-learning-based multi-agent system for data classification | |
CN106529721A (zh) | 一种深度特征提取的广告点击率预测系统及其预测方法 | |
Sarwar et al. | A survey of big data analytics in healthcare | |
Verma et al. | Prediction of students’ academic performance using Machine Learning Techniques | |
Liu et al. | Self-supervised transformer-based pre-training method using latent semantic masking auto-encoder for pest and disease classification | |
CN116612831A (zh) | 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 | |
Sadeghian et al. | A review of feature selection methods based on meta-heuristic algorithms | |
Tian et al. | Genetic algorithm based deep learning model selection for visual data classification | |
Abdullah et al. | Evolving spiking neural networks methods for classification problem: a case study in flood events risk assessment | |
Wu et al. | AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder | |
Zhang et al. | Deep compression of probabilistic graphical networks | |
Yaqoob et al. | Enhancing Feature Selection Through Metaheuristic Hybrid Cuckoo Search and Harris Hawks Optimization for Cancer Classification | |
Gorsevski | An evolutionary approach for spatial prediction of landslide susceptibility using LiDAR and symbolic classification with genetic programming | |
Moholkar et al. | Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system | |
El-Attar et al. | Performance of artificial intelligence models in analysis and prediction of water potability | |
Ullah et al. | Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification | |
Abed Al Raoof et al. | Maximizing CNN Accuracy: A Bayesian Optimization Approach with Gaussian Processes | |
Wei et al. | Genetic U-Net: automatically designing lightweight U-shaped CNN architectures using the genetic algorithm for retinal vessel segmentation | |
Termritthikun et al. | Neural architecture search and multi-objective evolutionary algorithms for anomaly detection | |
Van Tuc | Approximation contexts in addressing graph data structures | |
Ramkumar et al. | Forecasting influent wastewater quality by chaos coupled machine learning optimized with Bayesian algorithm | |
Poornima et al. | An efficient feature selection and classification for the crop field identification: A hybridized wrapper based approach | |
Noman et al. | OFDA-CNN: A novel metaheuristic algorithm-based deep CNN for multi-species seagrass classification | |
Ahmadlou et al. | Three novel cost-sensitive machine learning models for urban growth modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |