CN115831260A - 一种小样本分子毒性预测方法 - Google Patents
一种小样本分子毒性预测方法 Download PDFInfo
- Publication number
- CN115831260A CN115831260A CN202310120430.6A CN202310120430A CN115831260A CN 115831260 A CN115831260 A CN 115831260A CN 202310120430 A CN202310120430 A CN 202310120430A CN 115831260 A CN115831260 A CN 115831260A
- Authority
- CN
- China
- Prior art keywords
- toxicity
- training
- model
- training model
- small sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明提供了一种小样本分子毒性预测方法,包括将毒性数据集中的化合物转化成图结构数据;基于多分类模块图神经网络模型搭建预训练模型,构建预训练模型的训练集,将预训练模型的训练集输入至预训练模型中进行预训练模型的训练;对预训练模型进行变型,并对变形后的预训练模型进行迁移训练获得小样本分子毒性预测模型;利用小样本分子毒性预测模型进行毒性预测。本发明所提出的方法适用于只有少量训练样本的分子毒性预测任务,可以在只有少量训练样本情况下达到较高的毒性预测准确率。
Description
技术领域
本发明属于数据处理技术领域,尤其是涉及一种小样本分子毒性预测方法。
背景技术
对于生物制造而言,目前研究人员面对大量未知性能的化合物,采用直接实验的方法费时费力、效率太低。考虑到这些因素,正日益被基于化合物结构的毒性预测方法所代替。由于现有可用的公开毒性数据有限,因此有必要构建一个高效的分子毒性预测的定量构效关系模型。
发明内容
有鉴于此,本发明提出一种小样本分子毒性预测方法,适用于只有少量训练样本的分子毒性预测任务,可以在只有少量训练样本情况下达到较高的毒性预测准确率。
为达到上述目的,本发明的技术方案是这样实现的:
一种小样本分子毒性预测方法,包括如下步骤:
步骤1:将毒性数据集中的化合物转化成图结构数据;
步骤2:基于多分类模块图神经网络模型搭建预训练模型,构建预训练模型的训练集,将预训练模型的训练集输入至预训练模型中进行预训练模型的训练;
步骤3:对预训练模型进行变型,并对变形后的预训练模型进行迁移训练获得小样本分子毒性预测模型;
步骤4:利用小样本分子毒性预测模型进行毒性预测。
进一步的,所述步骤1具体包括:
步骤101:从数据库中获取化合物的SMILES格式以及对应的毒理活性标签,将SMILES格式转化成RDkit的mol对象,同时生成一个空的DGL图;
步骤102:将化合物的原子映射成节点,化学键映射成边,从而将分子结构式转化成图的形式,对化合物中的原子进行编号组建节点数组,根据两个原子在数组中的编号,返回一个化学键的对象;
步骤103:通过RDkit计算原子基本特征;
步骤104:将节点特征和边数据存放在空的DGL图中,每个分子对应一个子图,也就是分子由一个邻域列表和一组节点特征向量表示。
进一步的,所述步骤2中,预训练模型包括
由图卷积层和图池化层构成的特征提取器;
多分类器模块,用n个分类器对应n个毒性预测任务,同时这n个分类器共用一个特征提取器。
进一步的,所述步骤3中对预训练模型进行变型包括在预训练模型原有的分类器的基础上,再添加一个新的分类器作为目标分子毒性对应的分类器。
进一步的,在步骤2之前还包括计算目标分子毒性与源域分子毒性之间的相关性系数,并对系数进行排列,取相关性系数排名前M的源域分子毒性数据作为后续与预训练模型的训练数据。
相对于现有技术,本发明所述的一种小样本分子毒性预测方法具有以下优势:通过实验结果证明,在小规模数据下,本发明提出的迁移策略下的模型相比于传统迁移策略下的模型有更好的预测准确率,并且源域样本选择策略下,可以使这种应用迁移策略的模型的准确率再度得到提升。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的方法流程示意图;
图2为本发明的丙酮酸的SMILES格式与图结构;
图3为本发明的丙酮酸分子的节点特征和邻接矩阵的示意图;
图4为本发明的预训练模型的池化层结构设置示意图;
图5为本发明的基于图神经网络结构的多分类模块模型示意图;
图6为本发明的源域分子毒性数据样本集示意图;
图7为本发明的预训练模型变型示意图;
图8为本发明的目标域与源域分子毒性组成的样本集;
图9为本发明的模型迁移训练策略示意图;
图10为本发明的具体实施例中的预训练的多分类器图神经网络模型示意图;
图11为本发明的本发明的具体实施例中的变型后的预训练模型示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
本发明提出一种基于迁移学习策略和图神经网络模型的小样本分子毒性预测方法。首先提出一种化合物图结构数据表示方法,采用化学符号语言提取化合物的原子特征,将毒性数据集中化合物转化成图结构数据,进而可以从图结构数据处理的角度来进行化合物毒性预测;在此基础上,提出一种基于迁移学习策略的小样本分子毒性预测方法,该方法基于一个多分类模块图神经网络模型来进行模型预训练和模型迁移,通过充分利用不同类别毒性之间的关联性来提升模型的泛化能力。本发明所提出的方法适用于只有少量训练样本的分子毒性预测任务,可以在只有少量训练样本情况下达到较高的毒性预测准确率,具体步骤如图1所示:
步骤一:将化合物转化成图结构
从数据库中获取化合物的SMILES格式以及对应的毒理活性标签建立样本集,将SMILES格式转化成RDkit的mol对象,同时生成一个空的DGL图。
将样本集中每个化合物样本中的每个原子表示为一个节点,并为每个节点从0开始编号,组建节点数组;根据两个原子在数组中的编号,返回一个化学键的对象。将每个化合物中的化学键表示边;将样本集中的化合物毒性是否有活性用0和1表示,生成化合物毒性类别标签。如图2所示,以丙酮酸为例,说明此过程。
通过RDkit计算原子隐式化合价、原子的度、形成电荷数以及原子序号等原子基本特征。除此之外,我们分别对原子体积、原子半径、原子质量三个参数进行规范化处理如公式1。
其中,k为参数的种类数,b为原子的个数,x为原子特征值,y为规范后的原子特征值。
将节点特征和边数据存放在空的DGL图中,每个分子对应一个子图,即分子由一个邻域列表和一组节点特征向量X表示。通过步骤一提取的原子连接信息构建出每个化合物的邻接矩阵。当i原子和j原子之间存在化学键时,邻接矩阵对应位置,反之则为0。考虑到结点的聚合表征不包括自身的特征,因此添加在邻接矩阵中添加自环来聚合时添加自身的特征如图3所示。
步骤二:样本数据选择策略
若某一类毒性拥有较多数据时即已有较多分子在该类毒性上的毒性信息已知,就将此类毒性数据选择为源域数据。我们采用Cramér’sV相关系数计算源域分子毒性与目标域分子毒性数据之间的相关性系数。
绘制目标分子毒性与源分子毒性的2*2的列联表,如表1,其中目标分子毒性中有活性的化合物有m1个,无活性有n1个,源域分子毒性有活性的化合物有m2个,无活性的有n2个。其中m1、n1、m2、n2统称为毒性观测次数。每个毒性类别对应的期望值,例如目标域分子毒性种有毒理活性的期望值如公式2。
步骤三:搭建预训练模型
预训练模型主要包括两部分:第一部分是由图卷积层和图池化层构成的特征提取器。其中池化操作采用分层池化如图4,将每一层的最大池化和平均池化结果进行组合,将节点数不同的图降到同一个维度。在卷积和池化的过程中,不断聚合周围节点和边的信息,生成新的边和新的节点特征。我们在第一部分通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现分子的分布式特征表示。
第二部分是多分类器模块。该模块的设计思路是用n个分类器对应n个毒性预测任务,同时这n个分类器共用一个特征提取器,图5为基于图神经网络结构的多分类模块模型。
步骤四:构建预训练模型的训练集
从毒性数据库中获取M种源域分子毒性共同包含的N个化合物组建样本集,并对样本集中的每个化合物进行建模,得到该化合物的图结构。经过RDKit处理,N个化合物共个节点且每个节点对应7个特征,其中为第c个化合物所包含的原子数;由于化学键是无向的,共包括e条边。最后建立有维度的毒性标签,基于编码后的数据及标签,完成训练集的构建。如图6所示。
将训练集输入到预训练模型,在训练过程中,采用多分类交叉熵损失函数BCEWithLogitsLoss计算预测值和实际值之间误差衡量模型优略,在M个标签,N个训练数据下所产生的损失可定义如公式5和公式6。
在训练过程中采用Adam优化算法来更新图神经网络中各层的参数直到损失函数收敛。
步骤五:预训练模型变型
获得预训练模型之后,需要基于该模型训练出适用于目标分子毒性预测的网络,首先对预训练模型的架构进行调整,调整后的架构如图7所示,该架构是在预训练模型第三部分原有的M个分类器的基础上,再添加一个新的分类器作为目标分子毒性对应的分类器。
步骤六:模型迁移训练策略
从毒性数据库中获取目标分子毒性有标签的样本,其中样本数为,此时的数量较少。对新的样本集的每个化合物进行建模,得到该化合物的图结构数据。根据样本中的化合物筛选出M种源域分子毒性对应的标签,标签维度由原来的1*M维变为1*(M+1)维,完成训练集的构建。如图8所示,其中,损失函数在公式6的基础上转化为公式7。
在训练过程中,保持M种源域分子毒性对应的分类器参数不变,只对特征提取器模块和第个分类器的参数进行更新。图9中黑框部分为模型更新部分。在训练过程中采用Adam优化算法来更新这两部分的参数直到损失函数收敛。
步骤八:对预训练模型进行评估
训练完成后,考虑到化合物毒性标签的不平衡性,AUC对正负样本数分布不均情况具有鲁棒性,因此采用AUC评分来衡量模型的好坏。
下面列举一个具体的实施例说明本发明的方法,本发明从Tox21的SR部分获取5种毒性(SR-ARE、SR-ATAD5、SR-HSE、SR-MMP、SR-P53)作为源分子毒性,NR选择NR-AHR毒性作为目标分子毒性。计算目标分子毒性与源分子毒性的相关性系数,选取相关性系数排名前4的毒性,即剔除SR-ARE。从4种源分子毒性数据中提取共同的3833个化合物组成样本集,经过RDKit处理,3833个化合物共51402个节点且每个节点对应7个特征。3833个化合物对应3833*5的图标签。以上四个信息共同构成符合图神经网络输入的化合物数据集,其中训练集和测试集按照6:4进行随机划分。
建立一个的邻接矩阵A,其中51402为所有化合物中所涉及的原子节点数,根据邻接矩阵A和度矩阵D求得规范后的拉普拉斯矩阵。多分类器模型在特征提取部分,采用分层池化方式,每个图卷积层后接一个池化层,依次叠加五层共同构成特征提取,具体涉及的图神经网络结构如图10。
在该多分类器学习中,交叉熵损失函数采用BCEWithLogitsLoss,计算测试集中预测值和实际值之间的误差。在训练过程中采用Adam优化算法来更新图神经网络重铬层的参数直到损失函数收敛。在参数设置中隐藏层设置为128,学习率为,权重衰减为。
模型迁移涉及到的模型如图11,是在图8的基础上添加一个NR-AHR对应的分类器,再剔除sr-are对应的分类器。准备100组包含这5种毒性的样本数据作为预训练模型的训练样本,1000组样本数据作为预训练模型的测试样本。同时只对图9中的黑框部分进行训练。在训练过程中采用Adam优化算法来更新图神经网络重铬层的参数直到损失函数收敛。在参数设置中隐藏层设置为128,学习率为,权重衰减为。
如表1所示为七种模型的AUC得分,其中GCN是指使用GCN单独对NR-ARE进行训练;基于相关性系数选择前的多分类模块网络是指未对相关性系数进行筛选剔除,直接将NR-ARE迁移至多分类模块网络;基于新型迁移策略的多分类模块网络为该方法提出的模型。
表1
通过表1可观测到,从前7组数据可得基于多分类模块的迁移模型比基于传统迁移策略模型有更高的预测准确率,并且在添加源域样本选择策略之后的迁移模型比未添加选择策略的模型在AUC得分上高1.95%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种小样本分子毒性预测方法,其特征在于:包括如下步骤:
步骤1:将毒性数据集中的化合物转化成图结构数据;
步骤2:基于多分类模块图神经网络模型搭建预训练模型,构建预训练模型的训练集,将预训练模型的训练集输入至预训练模型中进行预训练模型的训练;
步骤3:对预训练模型进行变型,并对变形后的预训练模型进行迁移训练获得小样本分子毒性预测模型;
步骤4:利用小样本分子毒性预测模型进行毒性预测。
2.根据权利要求1所述的一种小样本分子毒性预测方法,其特征在于:所述步骤1具体包括:
步骤101:从数据库中获取化合物的SMILES格式以及对应的毒理活性标签,将SMILES格式转化成RDkit的mol对象,同时生成一个空的DGL图;
步骤102:将化合物的原子映射成节点,化学键映射成边,从而将分子结构式转化成图的形式,对化合物中的原子进行编号组建节点数组,根据两个原子在数组中的编号,返回一个化学键的对象;
步骤103:通过RDkit计算原子基本特征;
步骤104:将节点特征和边数据存放在空的DGL图中,每个分子对应一个子图,也就是分子由一个邻域列表和一组节点特征向量表示。
3.根据权利要求1所述的一种小样本分子毒性预测方法,其特征在于:所述步骤2中,预训练模型包括
由图卷积层和图池化层构成的特征提取器;
多分类器模块,用n个分类器对应n个毒性预测任务,同时这n个分类器共用一个特征提取器。
4.根据权利要求1所述的一种小样本分子毒性预测方法,其特征在于:所述步骤3中对预训练模型进行变型包括在预训练模型原有的分类器的基础上,再添加一个新的分类器作为目标分子毒性对应的分类器。
5.根据权利要求1所述的一种小样本分子毒性预测方法,其特征在于:在步骤2之前还包括计算目标分子毒性与源域分子毒性之间的相关性系数,并对系数进行排列,取相关性系数排名前M的源域分子毒性数据作为后续与预训练模型的训练数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120430.6A CN115831260B (zh) | 2023-02-16 | 2023-02-16 | 一种小样本分子毒性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120430.6A CN115831260B (zh) | 2023-02-16 | 2023-02-16 | 一种小样本分子毒性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115831260A true CN115831260A (zh) | 2023-03-21 |
CN115831260B CN115831260B (zh) | 2023-05-12 |
Family
ID=85521537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310120430.6A Active CN115831260B (zh) | 2023-02-16 | 2023-02-16 | 一种小样本分子毒性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831260B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112086146A (zh) * | 2020-08-24 | 2020-12-15 | 南京邮电大学 | 一种基于深度参数迁移学习的小分子药物虚拟筛选方法和装置 |
CN112580806A (zh) * | 2020-12-29 | 2021-03-30 | 中国科学院空天信息创新研究院 | 基于任务域知识迁移的神经网络持续学习方法及装置 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN114170426A (zh) * | 2021-11-04 | 2022-03-11 | 同济大学 | 一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型 |
CN114488140A (zh) * | 2022-01-24 | 2022-05-13 | 电子科技大学 | 一种基于深度迁移学习的小样本雷达一维像目标识别方法 |
CN114550847A (zh) * | 2022-01-28 | 2022-05-27 | 中国人民解放军军事科学院国防科技创新研究院 | 基于图卷积神经网络的药物口服利用度及毒性预测方法 |
-
2023
- 2023-02-16 CN CN202310120430.6A patent/CN115831260B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112086146A (zh) * | 2020-08-24 | 2020-12-15 | 南京邮电大学 | 一种基于深度参数迁移学习的小分子药物虚拟筛选方法和装置 |
CN112580806A (zh) * | 2020-12-29 | 2021-03-30 | 中国科学院空天信息创新研究院 | 基于任务域知识迁移的神经网络持续学习方法及装置 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN114170426A (zh) * | 2021-11-04 | 2022-03-11 | 同济大学 | 一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型 |
CN114488140A (zh) * | 2022-01-24 | 2022-05-13 | 电子科技大学 | 一种基于深度迁移学习的小样本雷达一维像目标识别方法 |
CN114550847A (zh) * | 2022-01-28 | 2022-05-27 | 中国人民解放军军事科学院国防科技创新研究院 | 基于图卷积神经网络的药物口服利用度及毒性预测方法 |
Non-Patent Citations (1)
Title |
---|
姜榕: ""基于图神经网络的分子毒性预测方法研究"" * |
Also Published As
Publication number | Publication date |
---|---|
CN115831260B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228716B (zh) | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 | |
Akay et al. | A comprehensive survey on optimizing deep learning models by metaheuristics | |
Amer et al. | A review of modularization techniques in artificial neural networks | |
Young et al. | Optimizing deep learning hyper-parameters through an evolutionary algorithm | |
CN107862173B (zh) | 一种先导化合物虚拟筛选方法和装置 | |
Liu et al. | Interpretable deep convolutional neural networks via meta-learning | |
CN111274903A (zh) | 一种基于图卷积神经网络的宫颈细胞图像分类方法 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN109558893B (zh) | 基于重采样池的快速集成污水处理故障诊断方法 | |
US20220101972A1 (en) | Machine learning systems for automated pharmaceutical molecule identification | |
CN115526246A (zh) | 一种基于深度学习模型的自监督分子分类方法 | |
CN112487724B (zh) | 基于分区和改进cnn-ca模型的城市动态扩张模拟方法 | |
CN115831260A (zh) | 一种小样本分子毒性预测方法 | |
CN116665039A (zh) | 基于两阶段因果干预的小样本目标识别方法 | |
CN116415177A (zh) | 一种基于极限学习机的分类器参数辨识方法 | |
JP7207128B2 (ja) | 予測システム、予測方法、および予測プログラム | |
CN113139487A (zh) | 一种面向遥感影像增量数据的建筑物特征学习方法 | |
CN115428090A (zh) | 用于学习生成具有期望特性的化学化合物的系统和方法 | |
Thareja et al. | Applications of Deep learning models in Bioinformatics | |
CN113469244B (zh) | 小众app分类系统 | |
CN113379068B (zh) | 基于结构化数据的深度学习架构搜索方法 | |
CN115620807B (zh) | 靶点蛋白分子与药物分子之间相互作用强度的预测方法 | |
JP2005182449A (ja) | ニューラルネットワークによるデータベース解析装置 | |
Rajput et al. | Improving data analysis using data mining techniques for KSOMM and PAPLM. | |
CN117933322A (zh) | 一种基于网络补丁的神经网络遗忘学习方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |