CN113257369B - 一种基于多任务图神经网络的分子毒性预测方法和装置 - Google Patents

一种基于多任务图神经网络的分子毒性预测方法和装置 Download PDF

Info

Publication number
CN113257369B
CN113257369B CN202110542907.0A CN202110542907A CN113257369B CN 113257369 B CN113257369 B CN 113257369B CN 202110542907 A CN202110542907 A CN 202110542907A CN 113257369 B CN113257369 B CN 113257369B
Authority
CN
China
Prior art keywords
molecular
toxicity
neural network
information
graph neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110542907.0A
Other languages
English (en)
Other versions
CN113257369A (zh
Inventor
姜榕
吴建盛
胡海峰
朱燕翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110542907.0A priority Critical patent/CN113257369B/zh
Publication of CN113257369A publication Critical patent/CN113257369A/zh
Application granted granted Critical
Publication of CN113257369B publication Critical patent/CN113257369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明揭示了一种基于多任务图神经网络的分子毒性预测方法和装置,该方法包括以下步骤:S1:毒性数据集的准备,得到用化学分子规范表达式表示的毒性数据;S2:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成原子节点特征向量;S3:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成边信息特征向量;S4:基于S2步骤得到的原子节点特征向量和和S3步骤得到的边信息特征向量,构建基于多任务图神经网络的分子毒性预测模型;S5:对模型进行性能验证。针对分子毒性数据集设计的多任务图神经网络,构建自动学习分子图结构信息模型,能够结合分子毒性任务间的关联性,使用多任务学习方法来提升毒性预测任务的性能。

Description

一种基于多任务图神经网络的分子毒性预测方法和装置
技术领域
本发明涉及一种基于多任务图神经网络的分子毒性预测方法和装置,可用于人工智能药物技术领域。
背景技术
药物毒性是指由于化合物的作用或代谢而对生物体产生的不利影响。在药物发现的早期阶段,分子毒性预测对于提前排除在临床试验中的候选药物至关重要。新药研发失败约有30%是由于存在安全性和毒性问题而导致的,因此毒性预测在药物发现和开发周期中至关重要。
传统上通过体内生物实验来评估药物毒性通常是耗时耗力的,而基于机器学习的药物毒性预测是一种重要的补充。基于机器学习的毒性预测从化合物的分子结构出发,通过提取化合物的分子描述符或分子指纹,构建机器学习模型来预测化合物的分子毒性。
分子毒性根据作用机制或作用靶标的不同可以分为多种类型,同时这些不同类型的分子毒性任务之间存在着内在关联,如果能把这些分子毒性任务放在一起利用机器学习方法进行学习,可以有效地利用任务之间的关联信息,提升分子毒性预测模型的性能。另外,基于传统的机器学习方法做分子毒性预测时,化合物的分子特征主要通过人工进行提取,其要求研究者具有较高的专业知识背景,具有较高门槛。分子可天然表示为图结构,且不同的分子大小形状都不一样,利用图神经网络可以实现端到端的分子特征学习,不需要人工干预,这样可以降低使用者的门槛,并得到性能更好的分子特征表示,并有效提升分子毒性模型的预测能力。
目前我们想要解决的一些技术问题就是:
(1)如何能够有效利用分子毒性任务的关联性,来提高分子毒性预测性能;
(2)如何构建端到端的分子图结构学习模型,自动生成分子特征;
(3)如何有效提高训练样本数量不足情况下的分子毒性预测模型性能。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提出一种基于多任务图神经网络的分子毒性预测方法和装置。
本发明的目的将通过以下技术方案得以实现:一种基于多任务图神经网络的分子毒性预测方法,该方法包括以下步骤:
S1:毒性数据集的准备,得到用SMILES化学分子规范表达式表示的毒性数据;
S2:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成原子节点特征向量;
S3:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成边信息特征向量;
S4:基于S2步骤得到的原子节点特征向量和和S3步骤得到的边信息特征向量,构建基于多任务图神经网络的分子毒性预测模型;
S5:对S4步骤得到的分子毒性预测模型进行模型性能的验证。
优选地,所述S1步骤包括以下步骤:
S11:收集包含分子毒性的数据,将所有包含相关毒性的化合物用化学分子规范表达式SMILES描述;
S12:对化合物进行结构标准化、盐的清洗处理,去除混合物、无机物和有机金属,保留具有明确毒性标签的分子;
S13:将数据集按一定比例随机分为训练集和测试集;
S14:使用化学工具包rdkit处理毒性数据集;
优选地,所述S2步骤包括以下步骤:
S21:依次遍历所有SMILES分子式中的每一个原子,根据原子的性质进行ONE-HOT数字编码;
S22:将每个原子看作一个节点,生成节点的特征向量。原子特征包括:原子类型、原子连接数、原子度、邻居杂原子类型;
S23:单个原子特征信息记为yx,yx=[x1,x2,...,xm,xt],其中,计数特征xt是一个实值嵌入向量,定义为单个分子式中各原子对应于总原子数的比重,[x1,x2,...,xm]为对应原子特征的ONE-HOT数字编码向量;
S24:输入的n个SMILES分子式构建的总原子结构特征信息向量记为x=XN×(m+1),x∈(x1,x2,...,xn),N为单个SMILES分子式中的原子节点个数。
优选地,所述S3步骤包括以下步骤:
S31:邻接特征向量取决于输入分子的嵌入键种类,由原子与原子间键的信息组成,边的特征包括:键的类型、环特征、芳香族、原子杂化方式;
S32:单个分子的邻接矩阵记为ec×t,使用无向图来描述分子邻接矩阵信息,t对应单个SMILES分子式边信息的特征数,c表示无向图的邻接矩阵构建。
S33:输入的n个SMILES分子式的边特征信息矩阵记为e=Ec×t,e∈(e1,e2,...,en)。
优选地,所述S4步骤包括以下步骤:
S41:将数据集按照一定比例划分,通过One-Hot编码生成原子节点特征与边信息特征,传入图神经网络输入端,从SMILES分子中进一步提取结构特征信息;
S42:为降低网络训练参数以及模型的过拟合程度,保留原子的显著特征信息,对提取到的特征矩阵进行池化/采样处理,将每个分子对应的所有原子特征相加,进行信息聚合,得到新的信息矩阵;
S43:保存图神经网络模型隐藏层的所有参数;
S44:经过多个全连接层,进行非线性变换,最后通过SoftMax来进行多分类任务预测,输出预测结果。
优选地,所述S5步骤包括以下步骤:
S51:传入验证集数据的原子节点特征与边信息特征,依次经过图神经网络的特征提取层、池化层、全连接层,通过k折交叉验证法对模型进行验证;
S52:通过隐藏层参数的共享,以及输出层对特定任务的单独训练,实现多任务图神经网络的分子毒性预测功能;
S53:根据实际毒性值与预测毒性值的误差,对模型进行评价与验证。
本发明还揭示了一种基于多任务图神经网络的分子毒性预测装置,该装置包括信息提取模块,用于学习分子毒性数据集的原子节点信息与边特征信息;图神经网络模型构建模块,用于构建毒性预测模型;多任务图神经网络模型分子毒性预测与性能评价模块,用于预测多个数据集的分子毒性和评价模型性能;信息提取模块只适用于提取信息,图神经网络模型构建模块是一个完整的预测模型,多任务图神经网络模型是一个完整的模型,三个模型间的关系为层层递进。
优选地,所述信息提取模块具体包括:原子节点特征生成模块,用于编码生成原子特征矩阵;边特征生成模块,利用原子间键的信息提取边特征矩阵;分子图全局结构信息表达模块,用于生成整个分子表达式的特征,构建分子毒性预测模型。
优选地,所述图神经网络模型构建模块具体包括:初始模块,用于从数据库获取包含SMILES字符串的毒性数据集;分子特征生成模块,用于遍历每一个分子式中的原子节点信息与边的信息;分子毒性预测模块,用于预测输入分子的毒性。
优选地,所述多任务图神经网络的分子毒性预测与性能评价模块具体包括:特征学习模块,用于学习数据的特征;多任务学习模块,用于学习共享隐藏层的参数特征,提升相关任务集的实验性能;验证模块,用于验证构建的网络模型性能。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本技术方案针对分子毒性数据集设计的多任务图神经网络,构建自动学习分子图结构信息模型,能够结合分子毒性任务间的关联性,使用多任务学习方法,来提升毒性预测任务(特别是小样本下)的性能。
附图说明
图1为本发明的一种基于多任务图神经网络的分子毒性预测装置的系统框架图。
图2为本发明的一种基于多任务图神经网络的分子毒性预测方法的训练流程图。
图3为本发明的一种基于多任务图神经网络的分子毒性预测装置的结构框图。
图4为本发明的信息提取模块301的结构示意图。
图5为本发明的图神经网络模型构建模块302的结构示意图。
图6为本发明的多任务图神经网路模型分子毒性预测与性能评价模块303的结构示意图。
具体实施方式
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
本发明揭示了一种基于多任务图神经网络的分子毒性预测方法,如图1和图2所示,该方法包括以下步骤:
S1:毒性数据集的准备,得到用SMILES化学分子规范表达式表示的毒性数据;
S2:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成原子节点特征向量;
S3:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成边信息特征向量;
S4:基于S2步骤得到的原子节点特征向量和和S3步骤得到的边信息特征向量,构建基于多任务图神经网络的分子毒性预测模型;
S5:对S4步骤得到的分子毒性预测模型进行模型性能的验证。
所述S1步骤包括以下步骤:S11:收集包含分子毒性的数据,将所有包含相关毒性的化合物用化学分子规范表达式SMILES描述;
S12:对化合物进行结构标准化、盐的清洗处理,去除混合物、无机物和有机金属,保留具有明确毒性标签的分子;
S13:将数据集按一定比例随机分为训练集和测试集;
S14:使用化学工具包rdkit处理毒性数据集;
所述S2步骤包括以下步骤:S21:依次遍历所有SMILES分子式中的每一个原子,根据原子的性质进行ONE-HOT数字编码;
S22:将每个原子看作一个节点,生成节点的特征向量。原子特征包括:原子类型、原子连接数、原子度、邻居杂原子类型;
S23:单个原子特征信息记为yx,yx=[x1,x2,...,xm,xt],其中,计数特征xt是一个实值嵌入向量,定义为单个分子式中各原子对应于总原子数的比重,[x1,x2,...,xm]为对应原子特征的ONE-HOT数字编码向量;
S24:输入的n个SMILES分子式构建的总原子结构特征信息向量记为x=XN×(m+1),x∈(x1,x2,...,xn),N为单个SMILES分子式中的原子节点个数。
所述S3步骤包括以下步骤:S31:邻接特征向量取决于输入分子的嵌入键种类,由原子与原子间键的信息组成,边的特征包括:键的类型、环特征、芳香族、原子杂化方式;
S32:单个分子的邻接矩阵记为ec×t,使用无向图来描述分子邻接矩阵信息,t对应单个SMILES分子式边信息的特征数,c表示无向图的邻接矩阵构建。
S33:输入的n个SMILES分子式的边特征信息矩阵记为e=Ec×t,e∈(e1,e2,...,en)。
所述S4步骤包括以下步骤:S41:将数据集按照一定比例划分,通过One-Hot编码生成原子节点特征与边信息特征,传入图神经网络输入端,从SMILES分子中进一步提取结构特征信息;
S42:为降低网络训练参数以及模型的过拟合程度,保留原子的显著特征信息,对提取到的特征矩阵进行池化/采样处理,将每个分子对应的所有原子特征相加,进行信息聚合,得到新的信息矩阵;
S43:保存图神经网络模型隐藏层的所有参数;
S44:经过多个全连接层,进行非线性变换,最后通过SoftMax来进行多分类任务预测,输出预测结果。
所述S5步骤包括以下步骤:S51:传入验证集数据的原子节点特征与边信息特征,依次经过图神经网络的特征提取层、池化层、全连接层,通过k折交叉验证法对模型进行验证;
S52:通过隐藏层参数的共享,以及输出层对特定任务的单独训练,实现多任务图神经网络的分子毒性预测功能;
S53:根据实际毒性值与预测毒性值的误差,对模型进行评价与验证。
本发明还揭示了一种基于多任务图神经网络的分子毒性预测装置,该装置包括信息提取模块,用于学习分子毒性数据集的原子节点信息与边特征信息;图神经网络模型构建模块,用于构建毒性预测模型;多任务图神经网络模型分子毒性预测与性能评价模块,用于预测多个数据集的分子毒性和评价模型性能;信息提取模块只适用于提取信息,图神经网络模型构建模块是一个完整的预测模型,多任务图神经网络模型是一个完整的模型,三个模型间的关系为层层递进。
所述信息提取模块具体包括:原子节点特征生成模块,用于编码生成原子特征矩阵;边特征生成模块,利用原子间键的信息提取边特征矩阵;分子图全局结构信息表达模块,用于生成整个分子表达式的特征,构建分子毒性预测模型。
所述图神经网络模型构建模块具体包括:初始模块,用于从数据库获取包含SMILES字符串的毒性数据集;分子特征生成模块,用于遍历每一个分子式中的原子节点信息与边的信息;分子毒性预测模块,用于预测输入分子的毒性。
所述多任务图神经网络的分子毒性预测与性能评价模块具体包括:特征学习模块,用于学习数据的特征;多任务学习模块,用于学习共享隐藏层的参数特征,提升相关任务集的实验性能;验证模块,用于验证构建的网络模型性能。
在实施例中,构建了基于多任务图神经网络的学习算法来实现分子毒性预测功能。首先通过图神经网络自动提取化合物分子的原子特征和键特征,再结合分子毒性任务间的相关性,构建多任务图神经网络模型来预测分子毒性。
实施例:如图1和图2所述,该基于多任务图神经网络的分子毒性预测方法,包括以下步骤:
S1:通过在公开数据库与文献中,搜集有关分子毒性的数据集,去除无机物和有机金属、盐和混合物的化合物,丢弃数据集中缺少标签值的化学物质,去除重复分子,保存数据集。提供毒性预测标签并将分子化合物以SMILES字符串形式保存到数据集。:
S2:对化学分子规范表达式SMILES进行预处理,将完整的数据集按照一定比例随机分为训练集和测试集,其中训练集再以k折交叉验证的方式分出一部分作为验证模型性能的验证集。
使用化学工具包rdkit将完整的数据集中的每个化学分子规范表达式SMILES分子式进行预处理,多任务图神经网络模型的输入端。
S3:通过ONE-HOT数字编码方式对SMILES分子式进行编码,将每个分子式唯一地映射到分子图结构中。
(1)依次遍历每个SMILES分子式中的所有原子,根据原子元素的性质进行ONE-HOT数字编码,生成原子节点特征向量。原子特征包括:原子类型、原子连接数(受H是否隐藏影响)、原子度、邻居杂原子类型。
SMILES分子式单个原子特征信息记为yx,yx=[X1,X2,...,Xm,Xt],其中,计数特征Xt是一个实值嵌入向量,对应于分子式中各原子对应于总原子数的比重,[X1,X2,...,Xm]为ONE-HOT数字编码向量,m为自定义编码维度。
输入的n个SMILES分子式构建的总原子结构特征信息向量记为x=XN×(m+1),x∈(x1,x2,...,xn),N为每个SMILES分子式中的原子节点个数。
(2)生成边特征向量:由输入分子的嵌入键的种类提供,表达原子与原子间边的信息,键的特征包括:键的类型、环特征、芳香族、原子杂化方式。
单个分子的边邻接矩阵记为Ec×t,t对应单个SMILES分子式边信息的特征数。输入的n个SMILES分子式的总邻接矩阵记为e=Ec×t,e∈(e1,e2,...,en)。
S4:构建多任务图神经网络的分子毒性预测模型,模型共享隐藏层参数。
(1)将One-Hot数字编码生成的原子节点特征XN×(m+1)与边信息特征Ec×t,传入图神经网络输入端,从SMILES分子中进一步提取利于毒性预测的结构信息。
图神经网络中将某一原子节点v的更新函数表示为:
Figure BDA0003071003960000091
Figure BDA0003071003960000092
Figure BDA0003071003960000093
表示第k层节点v处的特征,ε(k)是一个可学习的参数,N(v)是节点v的邻域。
使用MLP来拟合函数,传入的图神经网络的初始分子结构信息矩阵通过d维的隐藏层网络,提取特征,最后输出新的分子结构信息的矩阵Xn×d
(2)经过BN(Batch Normalization)层将训练集与测试集保持独立同分布,如果分布不能保持稳定,训练将难以收敛。通过添加非线性激活单元ReLU函数使网络权重得到很好的更新,去除冗余信息,分子结构信息矩阵维度保持不变。
(3)为了降低网络训练参数以及模型的过拟合程度,保留原子的显著特征信息,进行池化/采样处理,将每个分子对应的所有原子特征相加,进行信息聚合,得到信息矩阵Xn ×d
(4)经过第一个全连接层,提高特征向量的维度,更加全面的表达SMILES分子式信息。
d1=σ(W1x+b1) (2-1)
(5)经过第二个全连接层,加SoftMax分类网络,输出多分类任务的预测标签:
Figure BDA0003071003960000094
(6)每次迭代训练,首先计算前馈方向训练集输出的预测值,然后利用有监督的反向传播进行调参,使损失函数达到最小,公式如下:
Figure BDA0003071003960000101
k是分类任务的个数,y是标签,如果类别是i,则yi=1,否则等于0。p是图神经网络的输出,指类别是i的概率,由上一步SoftMax计算得出。
(7)通过损失函数输出的分类信息,来优化网络中的参数。反向传播时,所采用的优化器可以是传统的SGD,也可以是SGD的改进算法Adam。训练过程中损失函数的值不断减小,当更新到最优的权重矩阵W与偏移量b时,训练停止,模型训练完成。
S5:对模型性能验证。
(1)传入验证集数据集,对输入数据集进行One-Hot数字编码,依次经过图神经网络的特征提取层、池化层、全连接层,再通过k折交叉验证法对模型进行验证。
(2)通过隐藏层参数的共享,以及输出层对特定任务的单独训练,实现多任务图神经网络的分子毒性预测功能。
(3)根据实际毒性值与预测毒性值的误差,对模型进行评价与验证。:
本发明还揭示了一种基于多任务图神经网络的分子毒性预测方法相对应,如图3所示,本申请还提供了一种基于多任务图神经网络的分子毒性预测方法实施例,在本实施例中,该装置包括:基于信息提取模块301,用于学习分子毒性数据集的原子节点信息与键特征信启、。
图4为信息提取模块的结构示意图,信息提取模块具体包括:(1)原子节点特征生成模块401,用于编码生成原子特征矩阵;(2)边特征生成模块402,用于原子间的信息提取边特征矩阵;(3)分子图全局结构信息表达模块403,用于生成整个分子表达式的特征,构建分子毒性预测模型。
基于图神经网络模型构建模块302,用于构建毒性预测模型;图5为基于图神经网络模型构建模块的结构示意图,具体包括:(1)初始模块501,用于从数据库获取包含SMILES字符串的毒性数据集;(2)分子特征生成模块502,用于遍历每一个分子式中的原子节点信息与边信息;(3)分子毒性预测模块503,用于预测输入分子的毒性;
基于多任务图神经网络的分子毒性预测与性能评价模块,用于生成整个分子表达式的特征,构建分子毒性预测模型。图6为所述基于多任务图神经网络的分子毒性预测与性能评价模块的结构示意图,具体包括:(1)特征学习模块601,用于学习数据的特征;(2)多任务学习模块602,用于学习共享隐藏层的参数特征,提升相关任务集的实验性能;(3)验证模块603,用于验证构建的网络模型性能;
该技术方案利用分子毒性任务间的关联性,使用多任务学习方法,提升分子毒性预测模型性能,并实现端到端的分子特征自动学习。
该技术方案能够帮助提前排除临床试验中可能失败的候选药物,它是药物发现和开发周期中重要的一环。采用本发明的方法和装置,可实现利用分子毒性任务间的关联性,基于多任务学习提升模型预测性能(尤其是样本量不足的分子毒性预测任务),并可实现端到端的分子特征自动学习。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (8)

1.一种基于多任务图神经网络的分子毒性预测方法,其特征在于:该方法包括以下步骤:
S1:毒性数据集的准备,得到用SMILES化学分子规范表达式表示的毒性数据;
S2:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成原子节点特征向量,其具体步骤如下:
S21:依次遍历所有SMILES分子式中的每一个原子,根据原子的性质进行ONE-HOT数字编码;
S22:将每个原子看作一个节点,生成节点的特征向量;原子特征包括:原子类型、原子连接数、原子度、邻居杂原子类型;
S23:单个原子特征信息记为yx,yx=[x1,x2,...,xm,xt],其中,计数特征xt是一个实值嵌入向量,定义为单个分子式中各原子对应于总原子数的比重,[x1,x2,...,xm]为对应原子特征的ONE-HOT数字编码向量;
S24:输入的n个SMILES分子式构建的总原子结构特征信息向量记为x=XN×(m+1),x∈(x1,x2,...,xn),N为单个SMILES分子式中的原子节点个数;
S3:使用S1步骤中得到的用化学分子规范表达式的毒性数据,生成边信息特征向量,其具体步骤如下:
S31:邻接特征向量取决于输入分子的嵌入键种类,由原子与原子间键的信息组成,边的特征包括:键的类型、环特征、芳香族、原子杂化方式;
S32:单个分子的邻接矩阵记为ec×t,使用无向图来描述分子邻接矩阵信息,t对应单个SMILES分子式边信息的特征数,c表示无向图的邻接矩阵构建;
S33:输入的n个SMILES分子式的边特征信息矩阵记为e=Ec×t,e∈(e1,e2,...,en);
S4:基于S2步骤得到的原子节点特征向量和S3步骤得到的边信息特征向量,构建基于多任务图神经网络的分子毒性预测模型;
S5:对S4步骤得到的分子毒性预测模型进行模型性能的验证。
2.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法,其特征在于:所述S1步骤包括以下步骤:
S11:收集包含分子毒性的数据,将所有包含相关毒性的化合物用化学分子规范表达式SMILES描述;
S12:对化合物进行结构标准化、盐的清洗处理,去除混合物、无机物和有机金属,保留具有明确毒性标签的分子;
S13:将数据集按一定比例随机分为训练集和测试集;
S14:使用化学工具包rdkit处理毒性数据集。
3.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法,其特征在于:所述S4步骤包括以下步骤:
S41:将数据集按照一定比例划分,通过One-Hot编码生成原子节点特征与边信息特征,传入图神经网络输入端,从SMILES分子中进一步提取结构特征信息;
S42:为降低网络训练参数以及模型的过拟合程度,保留原子的显著特征信息,对提取到的特征矩阵进行池化/采样处理,将每个分子对应的所有原子特征相加,进行信息聚合,得到新的信息矩阵;
S43:保存图神经网络模型隐藏层的所有参数;
S44:经过多个全连接层,进行非线性变换,最后通过SoftMax来进行多分类任务预测,输出预测结果。
4.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法,其特征在于:所述S5步骤包括以下步骤:
S51:传入验证集数据的原子节点特征与边信息特征,依次经过图神经网络的特征提取层、池化层、全连接层,通过k折交叉验证法对模型进行验证;
S52:通过隐藏层参数的共享,以及输出层对特定任务的单独训练,实现多任务图神经网络的分子毒性预测功能;
S53:根据实际毒性值与预测毒性值的误差,对模型进行评价与验证。
5.一种实现如权利要求1所述的基于多任务图神经网络的分子毒性预测方法的装置,其特征在于:还包括分子毒性预测装置,所述分子毒性预测装置包括信息提取模块,用于学习分子毒性数据集的原子节点信息与边特征信息;图神经网络模型构建模块,用于构建毒性预测模型;多任务图神经网络模型分子毒性预测与性能评价模块,用于预测多个数据集的分子毒性和评价模型性能;信息提取模块只适用于提取信息,图神经网络模型构建模块是一个完整的预测模型,多任务图神经网络模型是一个完整的模型,三个模型间的关系为层层递进。
6.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置,其特征在于:所述信息提取模块具体包括:原子节点特征生成模块,用于编码生成原子特征矩阵;边特征生成模块,利用原子间键的信息提取边特征矩阵;分子图全局结构信息表达模块,用于生成整个分子表达式的特征,构建分子毒性预测模型。
7.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置,其特征在于:所述图神经网络模型构建模块具体包括:初始模块,用于从数据库获取包含SMILES字符串的毒性数据集;分子特征生成模块,用于遍历每一个分子式中的原子节点信息与边的信息;分子毒性预测模块,用于预测输入分子的毒性。
8.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置,其特征在于:所述多任务图神经网络的分子毒性预测与性能评价模块具体包括:特征学习模块,用于学习数据的特征;多任务学习模块,用于学习共享隐藏层的参数特征,提升相关任务集的实验性能;验证模块,用于验证构建的网络模型性能。
CN202110542907.0A 2021-05-18 2021-05-18 一种基于多任务图神经网络的分子毒性预测方法和装置 Active CN113257369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110542907.0A CN113257369B (zh) 2021-05-18 2021-05-18 一种基于多任务图神经网络的分子毒性预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110542907.0A CN113257369B (zh) 2021-05-18 2021-05-18 一种基于多任务图神经网络的分子毒性预测方法和装置

Publications (2)

Publication Number Publication Date
CN113257369A CN113257369A (zh) 2021-08-13
CN113257369B true CN113257369B (zh) 2022-08-30

Family

ID=77182614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110542907.0A Active CN113257369B (zh) 2021-05-18 2021-05-18 一种基于多任务图神经网络的分子毒性预测方法和装置

Country Status (1)

Country Link
CN (1) CN113257369B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038517A (zh) * 2021-08-25 2022-02-11 暨南大学 一种基于对比学习的自监督图神经网络预训练方法
CN113707235B (zh) * 2021-08-30 2023-09-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
CN114220497A (zh) * 2021-12-14 2022-03-22 中国科学院过程工程研究所 一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台
CN114566230A (zh) * 2021-12-15 2022-05-31 中国科学院深圳先进技术研究院 一种基于多任务深度学习模型预测化合物性质的方法
CN114550847B (zh) * 2022-01-28 2024-04-16 中国人民解放军军事科学院国防科技创新研究院 基于图卷积神经网络的药物口服利用度及毒性预测方法
CN114694769B (zh) * 2022-03-28 2024-09-10 北京百度网讯科技有限公司 分子表示方法、分子表示模型的训练方法及装置
CN114724646B (zh) * 2022-05-05 2023-06-02 北京科技大学 一种基于质谱图和图结构的分子属性预测方法
CN115831260B (zh) * 2023-02-16 2023-05-12 天津大学 一种小样本分子毒性预测方法
CN117935971B (zh) * 2024-03-22 2024-06-21 中国石油大学(华东) 基于图神经网络的深层钻井液处理剂性能预测评价方法
CN118280482B (zh) * 2024-06-04 2024-08-23 浙江大学 基于深度学习预测抗氧化分子的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN112216396A (zh) * 2020-10-14 2021-01-12 复旦大学 一种基于图神经网络预测药物-副作用关系的方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN112216396A (zh) * 2020-10-14 2021-01-12 复旦大学 一种基于图神经网络预测药物-副作用关系的方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于堆叠式自编码器的新型分子毒性预测模型;周威;《电子技术与软件工程》;20200801(第15期);全文 *

Also Published As

Publication number Publication date
CN113257369A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113257369B (zh) 一种基于多任务图神经网络的分子毒性预测方法和装置
Sanchez et al. Deep learning for population size history inference: Design, comparison and combination with approximate Bayesian computation
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
CN112086195B (zh) 一种基于自适应集成学习模型的再入院风险预测方法
CN114003734B (zh) 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN112132776A (zh) 基于联邦学习的视觉检测方法及系统、存储介质、设备
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
CN108206056A (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
CN106453294A (zh) 基于模糊淘汰机制的小生境技术的安全态势预测方法
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116912624A (zh) 一种伪标签无监督数据训练方法、装置、设备及介质
Patra et al. Deep learning methods for scientific and industrial research
Liu et al. Multi-task learning with domain knowledge for molecular property prediction
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN116978581A (zh) 基于深度学习预测模型的药物分子有效性验证方法及系统
CN116612831A (zh) 深度学习结合模式生物斑马鱼的化学物质安全性评估方法
CN117079017A (zh) 可信的小样本图像识别分类方法
CN116798653A (zh) 药物相互作用预测方法、装置、电子设备及存储介质
CN116563602A (zh) 基于类别级软目标监督的细粒度图像分类模型训练方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
Can et al. A literature review on the use of genetic algorithms in data mining
Rasekh et al. Machine learning approach for contamination source identification in water distribution systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant