CN110459274A - 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 - Google Patents

一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 Download PDF

Info

Publication number
CN110459274A
CN110459274A CN201910707134.XA CN201910707134A CN110459274A CN 110459274 A CN110459274 A CN 110459274A CN 201910707134 A CN201910707134 A CN 201910707134A CN 110459274 A CN110459274 A CN 110459274A
Authority
CN
China
Prior art keywords
virtual screening
ligand
aiming field
value
small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910707134.XA
Other languages
English (en)
Other versions
CN110459274B (zh
Inventor
吴建盛
陈严小虎
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910707134.XA priority Critical patent/CN110459274B/zh
Publication of CN110459274A publication Critical patent/CN110459274A/zh
Application granted granted Critical
Publication of CN110459274B publication Critical patent/CN110459274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用,先将源域作为输入,进行训练并经过收敛之后推导得出权重矩阵;再将目标域输入到改进工具中作为目标域的初始化权重;将初始化权重和目标域中数据进行微调继续训练至收敛;在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域分子指纹和预测值,输出预测结果的评价指标均方根误差和相关系数;对目标域重复以上步骤进行微调,实现借助源域的权重矩阵帮助目标域构建模型。本发明提供的小分子药物虚拟筛选方法及其应用能够在已知活性配体样本信息不充分的情况下仍得到有效的虚拟筛选模型,而不需要依赖大量的数据样本。

Description

一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
技术领域
本发明涉及一种小分子药物筛选方法及其应用,尤其涉及一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用。
背景技术
小分子药物筛选往往需要通过高通量实验技术到数量巨大的化合物数据库中测定靶点与化合物作用的生物活性值,来筛选先导化合物。然而,实验的方法耗时耗力,更坏的是,往往可得到的化合物数量非常有限,而且并不是所有的药物靶点都适合于高通量筛选实验。因此,基于计算的虚拟筛选,它通过模拟目标靶点与候选药物之间的相互作用,在小分子药物设计中得到了广泛的应用。
基于计算的虚拟筛选可以分为两类,即基于受体的虚拟筛选和基于配体的虚拟筛选。基于受体的虚拟筛选通过模拟化合物与靶点的物理学相互作用来进行筛选,但需要知道靶点精确的三维结构,而且计算量很大。基于配体的虚拟筛选无需知道药物靶点三维结构,它利用已知活性的化合物,根据化合物的形状相似性或药效团模型在化合物数据库中进行搜索。
由于可用数据的急剧增加、各种化学描述符的产生和机器学习方法的巨大发展,配体虚拟筛选在小分子药物设计中得到了大量的应用。目前靶向已有靶点的小分子药物设计空间已经接近饱和,开发新药需要发现新的能够成药的靶点。然而,新的药物靶标往往已知活性配体样本信息不充分,已有的配体虚拟筛选方法的成功依赖于大量的数据样本,当已知活性配体样本信息不充分时,配体虚拟筛选难于得到好的预测性能。
发明内容
发明目的:本发明提供了一种基于深度迁移学习的小分子药物虚拟筛选方法,用于解决小分子药物虚拟筛选中已知活性配体样本信息不充分而难于得到好用的虚拟筛选模型的问题。
技术方案:本发明提供一种基于深度迁移学习的小分子药物虚拟筛选方法,包括如下步骤:
S1、实验数据样本分为源域与目标域,先将源域作为输入,输入到基于配体的虚拟筛选的通用工具demo_new1中进行训练,经过收敛之后得到训练模型P=Predictor(F,Y);
S2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;
S3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;
S4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;
S5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;
S6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹Ft和预测值Y,并输出最后预测结果的评价指标均方根误差RMSE和相关系数r2
S7、权重更新:用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新;
S8、判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的目标域加权分子指纹Ft
S9、将由上述步骤之后源域达到最优模时的权重矩阵保存,作为目标域第一步的初始化权重,然后目标域重复以上步骤使用fine-tune进行微调,最终得到目标域的模型,即实现了借助源域的权重矩阵帮助目标域构建模型。
优选地,S1包括以下步骤:
S11、将源域作为输入,输入到基于配体的虚拟筛选的通用工具,即demo_new1中,初始化网络的参数,包括权重矩阵W和源域加权分子指纹Fs
S12、从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
S13、通过Rdkit数据库,计算得到子集S中每一个分子的化学信息数据;
S14、提取需要的所有原子、近邻原子信息、化学键信息以及边信息;
S15、对分子进行累加操作依次得到每一模块单元的分子指纹fl
S16、对S15中每一模块单元的分子指纹fl进行加权得到源域加权分子指纹Fs
S17、预测得到生物配体的活性:在本发明构建的用来预测生物配体的活性的回归预测模型如下式所示:使用的活性值为-log10V,其中V是生物活性值;生物活性生成部分由该预测模型得出;
S18、计算目标损失函数:其中,n表示训练数据集中配体分子个数,yi分别表示分子xi的真实活性值与预测活性值,θ为加权深度学习模型中需要求解的权重参数;通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括两部分,目标损失函数第一部分,即是正则化的二次成本函数,其考虑了估计项目与观测值的偏差;第二部分,即是控制模型复杂性并避免过度拟合的正则化条件。通过计算目标损失函数,来达到模型的最小化预测活性值与真实活性值的均方误差的目的。
优选地,S15中所述的每一模块单元的分子指纹f的生成由多个模块单元组成,每个模块单元包含四个层,依次为加和池化层,卷积层,卷积层,加和池化层。
进一步地,S15中所述的每一模块单元的分子指纹f包括原子及其相邻原子属性以及键类型;所述原子及其相邻原子的初始原子属性连接原子元素的单热编码,连接的氢原子数量和隐含的价数,以及芳香性指标;所述键类型为单键,双键,三键或者芳香键,键共轭或键成环和键的数量。
优选地,S15所述的每一模块单元的分子指纹f还包括相邻原子之间的区别信息,所述区别信息为在每个中心原子的相邻原子和中心原子之间的边信息。。
其中,上述边信息术语意思是一些可能有关联但是可能被忽略的信息:所述边信息是指在每个中心原子的相邻原子和中心原子之间的边缘上结合的特征,包括相邻原子的排列顺序信息等。
进一步地,所述的S6中预测先导化合物与药物靶标相互作用的生物活性值的步骤为:采用随机森林模型计算生物活性,随机森林是M个决策树的集合,具体包括:随机森林模型产生输出,其中是第m棵树的配体的预测值。
优选地,所述随机森林模型的训练程序如下:
(1)从n个配体的训练数据中抽取一个bootstrap样本数据集,通过随机抽样和训练数据集的替换生成n个训练样本,得到自举样本数据集;
(2)对于每个自举样本数据集,使用以下方案生成树:在每个节点上,选择随机的要素子集中的最佳分组,树生长到最大尺寸直到不再有可能分裂后,停止修剪;
(3)重复上述步骤,直到M个这样的树生长出来。
具体来说,上述步骤中,随机森林是M个决策树{T_1(x),…,T_M(x)}的集合,其中,x={x_1,…,x_k}是配体指纹的k维向量。随机森林模型产生M个输出结果{Y^_1=T_1(x),…,Y^_M=T_M(x)},其中,Y^_m是第m个树的配体预测值。然后,再组合所有树的输出以产生一个最终预测Y^,即为个体树预测的平均值。
给定一组用于训练的n个配体的数据D={(X_1,Y_1),…,(X_n,Y_n)},其中,X_i(i=1,…,n)是指纹向量,Y_i是配体的生物活性值,训练程序如下:
从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随机取样替代,产生n个训练样本;
对于每个引导样本数据集,使用以下方案生成树:在每个节点,选择随机获取到的特征子集中的最佳分割。树生长到最大尺寸,即直到没有更多的分裂是可能的,而不是进行修剪;
重复上述步骤直到M个这样的树生长出来。
本发明还提供一种基于深度迁移学习的小分子药物虚拟筛选方法的应用,所述应用为小分子药物虚拟筛选装置。
优选地,所述小分子药物虚拟筛选装置为基于配体的虚拟筛选的通用工具demo_new1、基于参数迁移的配体虚拟筛选的改进工具demo_new2、先导化合物与药物靶标作用的生物活性的预测工具demo_activity和先导化合物在药物靶标上的分子指纹的生成工具build_wdl_fp;
其中,所述基于配体的虚拟筛选的通用工具demo_new1提供自主开发药物靶标的虚拟筛选工具;输入:SMILES格式的化合物及其生物活性值;输出:模型的性能参数,所述模型的性能参数为RMSE和r2值;
所述基于参数迁移的配体虚拟筛选的改进工具demo_new2的输出:迁移所需的权重矩阵、fine-tune功能和模型性能参数,所述模型性能参数为RMSE和r2值;输入:MILES格式的化合物及其生物活性值;
所述demo_activity预测先导化合物与药物靶标相互作用的生物活性值,并将其应用于针对这些药物靶标的新药设计,药物副作用的预测及药物研发风险的评估,输入:SMILES格式的化合物,输出:与这些GPCR药物靶标作用的生物活性值;
所述build_wdl_fp得到先导化合物在药物靶标上的多种短的分子指纹,用于化合物的相似性搜索、药效基团搜索等;输入:SMILES格式的化合物;输出:分子指纹。
有益效果:本发明提供的小分子药物虚拟筛选方法及其应用能够在已知活性配体样本信息不充分的情况下仍得到有效的虚拟筛选模型,而不需要依赖大量的数据样本。
附图说明
图1为本发明方法的前馈结构图;
图2为本发明方法的步骤示意图;
图3为本发明应用中所述装置的结构示意图。
具体实施方式
我们以一组数据集输入作为例子进行介绍具体实施方式:
表1
如上表1所示,这是我们经过生物技术筛选后得到的数据集,它们因为都同属于同源蛋白所以被分为一组,有着共同的家族这里我们称之为Group A,其中A1-A6是我们的目标域,即我们所针对的小样本数据集,他们的数量在一百多到一千多不等,这对我们做深度学习十分不利,所以我们又找到我们的源域,即AS1,AS2,他们有几千个样本数量。我们要做的就是用源域来提高目标域的训练效果,具体实施步骤如下:
1.将源域作为输入,输入到我们的基于配体的虚拟筛选的通用工具demo_new1中进行训练:
(1)初始化网络的参数,包括权重矩阵W,分子指纹f0
(2)从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
(3)通过Rdkit数据库,计算得到子集S中每一个分子的化学信息数据;
(4)提取需要的所有原子、近邻原子信息、化学键信息以及边信息;
(5)对分子进行累加操作依次得到每一模块单元的分子指纹f,即分子指纹f是每一模块单元的累加;
(6)将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹Fi。加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的加权分子指纹Fi
(7)预测得到生物配体的活性。由于药物靶标与配体相互作用的生物活性值跨度太大,在本发明构建的回归预测模型中,使用的活性值为-log10 V,其中V是生物活性值,以此来缩小生物活性值的跨度。生物活性生成部分由两个全连接层构成。
(8)计算目标损失函数。通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,来达到模型的最小化预测活性值与真实活性值的均方误差的目的。
2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;
3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;
4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;
5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;
6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹Ft和预测值Y,并输出最后预测结果的评价指标均方根误差RMSE和相关系数r2
7、权重更新:用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新;
8、判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的目标域加权分子指纹Ft
9、将由上述步骤之后源域达到最优模时的权重矩阵保存,作为目标域第一步的初始化权重,然后目标域重复以上步骤使用fine-tune进行微调,最终得到目标域的模型,即实现了借助源域的权重矩阵帮助目标域构建模型。
具体过程如图1所示,其中目标化合物如Xi所示,本发明提出基于深度迁移学习的小分子药物虚拟筛选方法模型,即WDL-TL的前馈结构图,其包括三个部分,即基于模块单元的分子指纹生成(I)、加权分子指纹生成(II)和生物活性生成(III)。
基于模块单元的分子指纹的生成部分,包含了多个模块单元。对于每个模块单元,都划分成4层,分别为累加,卷积,卷积和累加这四种操作。
加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹,即本发明所述的加权分子指纹。生物活性生成部分可以由两个全连接层构成。
起初,本发明给定配体分子数据集D={(x1,y1),...,(xn,yn)},其中i=1,...,n,其中xi表示第i个配体分子,yi表示其生物活性值。对配体分子xi,假设其含有Ai个原子,本发明通过Rdkit工具得到每个原子的属性向量mj,其中j=1,...,Ai
假设本发明的模型含有L个模块单元,对于第l个模块单元,假设配体分子xi中的任意原子α属性向量为ma,其含有Na个近邻原子。
首先,本发明先通过累加操作考虑了原子α的所有近邻原子信息,及利用如下公式:
然后,再通过第一个卷积操作考虑了原子α的连接化学键的信息,利用如下公式:
其中,l∈[1,L];V代表原子α的连接化学键数量,V∈[1,5];权重矩阵用于表征原子连接的化学键信息,需要迭代更新。σ(.)为ReLU激活函数,即利用如下公式:
继而,本发明利用第二个卷积操作计算
ca=s(maHl)
其中,l∈[1,L];Hl为连接权重向量,需要迭代更新;s(.)表示作为索引的可微分类比的softmax函数,即
最后,本发明再对分子进行累加操作依次得到每一模块单元的分子指纹f,即
f=f+ca
对分子xl,本发明将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹Fi,利用公式
其中L是模块单元的数量,l∈[1,L],W是模块单元生成的分子指纹与加权分子指纹层之间的连接权重;σ(.)为ReLU激活函数,Fi包括目标域加权分子指纹Ft及源域加权分子指纹Fs
得到加权分子指纹Fi后,本发明通过两个全连接层得到配体分子xi预测活性值,假设加权分子指纹层第j个神经元与中间层第m个神经元之间的连接权重为Pjm,即
zm=σ(∑pjmFij)
假设中间层第m个神经元与输出层神经元s之间的连接权为oms,则
其中σ(.)为ReLU激活函数。
我们将部分实验的结果展示如下:如下表2所示,我们采用AS1作为源域,将AS1的权重矩阵赋给A1-A6的目标域,然后通过对比不同迭代轮数之后的训练结果,并于不采用迁移直接对A1-A6的样本进行本方法的测试结果做对比,即在权重初始化阶段仅采用随机初始化的结果,记作WDL-RF2,迁移后的结果记作TR-WDL-RF2,斜体加粗的数据为最佳数据,可见在迁移之后小样本数据集都有提升效果,并且有的效果很明显,说明我们方法的有效性数据与文字相对应来说明有效性。
表2。

Claims (9)

1.一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,包括如下步骤:
S1、实验数据样本分为源域与目标域,先将源域作为输入,输入到基于配体的虚拟筛选的通用工具demo_new1中进行训练,经过收敛之后得到训练模型P=Predictor(F,Y);
S2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;
S3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;
S4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;
S5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;
S6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹Ft和预测值Y,并输出最后预测结果的评价指标均方根误差RMSE和相关系数r2
S7、权重更新:用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新;
S8、判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的目标域加权分子指纹Ft
S9、将由上述步骤之后源域达到最优模时的权重矩阵保存,作为目标域第一步的初始化权重,然后目标域重复以上步骤使用fine-tune进行微调,最终得到目标域的模型,即实现了借助源域的权重矩阵帮助目标域构建模型。
2.根据权利要求1所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,S1包括以下步骤:
S11、将源域作为输入,输入到基于配体的虚拟筛选的通用工具,即demo_new1中,初始化网络的参数,包括权重矩阵W和源域加权分子指纹Fs
S12、从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
S13、通过Rdkit数据库,计算得到子集S中每一个分子的化学信息数据;
S14、提取需要的所有原子、近邻原子信息、化学键信息以及边信息;
S15、对分子进行累加操作依次得到每一模块单元的分子指纹fl
S16、对S15中每一模块单元的分子指纹fl进行加权得到源域加权分子指纹Fs
S17、预测得到生物配体的活性:在本发明构建的用来预测生物配体的活性的回归预测模型如下式所示:使用的活性值为-log10V,其中V是生物活性值;生物活性生成部分由该预测模型得出;
S18、计算目标损失函数:其中,n表示训练数据集中配体分子个数,yi分别表示分子xi的真实活性值与预测活性值,θ为加权深度学习模型中需要求解的权重参数;通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括两部分,目标损失函数第一部分,即是正则化的二次成本函数,其考虑了估计项目与观测值的偏差;第二部分,即是控制模型复杂性并避免过度拟合的正则化条件。
3.根据权利要求2所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于:S15中所述的每一模块单元的分子指纹fl的生成由多个模块单元组成,每个模块单元包含四个层,依次为加和池化层,卷积层,卷积层,加和池化层。
4.根据权利要求2所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于:S15所述的每一模块单元的分子指纹fl包括原子及其相邻原子属性以及键类型;所述原子及其相邻原子的初始原子属性连接原子元素的单热编码,连接的氢原子数量和隐含的价数,以及芳香性指标;所述键类型为单键,双键,三键或者芳香键,键共轭或键成环和键的数量。
5.根据权利要求2所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于:S15所述的每一模块单元的分子指纹fl还包括相邻原子之间的区别信息,所述区别信息为在每个中心原子的相邻原子和中心原子之间的边信息。
6.根据权利要求4所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于:所述的S6中预测先导化合物与药物靶标相互作用的生物活性值的步骤为:采用随机森林模型计算生物活性,随机森林是M个决策树的集合,具体包括:随机森林模型产生输出,其中是第m棵树的配体的预测值。
7.根据权利要求4所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,所述随机森林模型的训练程序如下:
(1)从n个配体的训练数据中抽取一个bootstrap样本数据集,通过随机抽样和训练数据集的替换生成n个训练样本,得到自举样本数据集;
(2)对于每个自举样本数据集,使用以下方案生成树:在每个节点上,选择随机的要素子集中的最佳分组,树生长到最大尺寸直到不再有可能分裂后,停止修剪;
(3)重复上述步骤,直到M个这样的树生长出来。
8.权利要求1~7所述一种基于深度迁移学习的小分子药物虚拟筛选方法的应用,其特征在于:所述应用为小分子药物虚拟筛选装置。
9.根据权利要求8所述的基于深度迁移学习的小分子药物虚拟筛选方法的应用,其特征在于:所述小分子药物虚拟筛选装置为基于配体的虚拟筛选的通用工具demo_new1、基于参数迁移的配体虚拟筛选的改进工具demo_new2、先导化合物与药物靶标作用的生物活性的预测工具demo_activity和先导化合物在药物靶标上的分子指纹的生成工具build_wdl_fp;
其中,所述基于配体的虚拟筛选的通用工具demo_new1提供自主开发药物靶标的虚拟筛选工具;输入:SMILES格式的化合物及其生物活性值;输出:模型的性能参数,所述模型的性能参数为RMSE和r2值;
所述基于参数迁移的配体虚拟筛选的改进工具demo_new2的输出:迁移所需的权重矩阵、fine-tune功能和模型性能参数,所述模型性能参数为RMSE和r2值;输入:MILES格式的化合物及其生物活性值;
所述demo_activity预测先导化合物与药物靶标相互作用的生物活性值,并将其应用于针对这些药物靶标的新药设计,药物副作用的预测及药物研发风险的评估,输入:SMILES格式的化合物,输出:与这些GPCR药物靶标作用的生物活性值;
所述build_wdl_fp得到先导化合物在药物靶标上的多种短的分子指纹,用于化合物的相似性搜索、药效基团搜索等;输入:SMILES格式的化合物;输出:分子指纹。
CN201910707134.XA 2019-08-01 2019-08-01 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 Active CN110459274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910707134.XA CN110459274B (zh) 2019-08-01 2019-08-01 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910707134.XA CN110459274B (zh) 2019-08-01 2019-08-01 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用

Publications (2)

Publication Number Publication Date
CN110459274A true CN110459274A (zh) 2019-11-15
CN110459274B CN110459274B (zh) 2022-08-26

Family

ID=68484571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910707134.XA Active CN110459274B (zh) 2019-08-01 2019-08-01 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用

Country Status (1)

Country Link
CN (1) CN110459274B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111081321A (zh) * 2019-12-18 2020-04-28 江南大学 一种cns药物关键特征识别方法
CN111180020A (zh) * 2019-12-20 2020-05-19 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN111326218A (zh) * 2020-03-06 2020-06-23 华东师范大学 一种基于蛋白环境描述小分子片段属性的指纹设计方法
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111755081A (zh) * 2020-05-06 2020-10-09 北京化工大学 一种高甲烷吸附率MOFs生成与筛选的方法
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
WO2021004021A1 (zh) * 2019-12-20 2021-01-14 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN113192572A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113192571A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
WO2021218791A1 (zh) * 2020-04-29 2021-11-04 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN114049922A (zh) * 2021-11-09 2022-02-15 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114187978A (zh) * 2021-11-24 2022-03-15 中山大学 一种基于深度学习连接片段的化合物优化方法
CN114708931A (zh) * 2022-04-22 2022-07-05 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN115240762A (zh) * 2021-07-23 2022-10-25 杭州钛石科技有限公司 多尺度小分子虚拟筛选方法及系统
WO2022222492A1 (zh) * 2021-04-23 2022-10-27 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
WO2023123149A1 (zh) * 2021-12-30 2023-07-06 深圳晶泰科技有限公司 虚拟分子筛选系统、方法、电子设备及计算机可读存储介质
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN108399316A (zh) * 2018-03-02 2018-08-14 南京邮电大学 药物设计中配体分子特征筛选装置和筛选方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN108399316A (zh) * 2018-03-02 2018-08-14 南京邮电大学 药物设计中配体分子特征筛选装置和筛选方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN110970099B (zh) * 2019-12-10 2023-04-28 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111081321A (zh) * 2019-12-18 2020-04-28 江南大学 一种cns药物关键特征识别方法
CN111081321B (zh) * 2019-12-18 2023-10-31 江南大学 一种cns药物关键特征识别方法
CN111180020A (zh) * 2019-12-20 2020-05-19 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111180020B (zh) * 2019-12-20 2023-09-01 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
WO2021004021A1 (zh) * 2019-12-20 2021-01-14 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN111326218A (zh) * 2020-03-06 2020-06-23 华东师范大学 一种基于蛋白环境描述小分子片段属性的指纹设计方法
CN111326218B (zh) * 2020-03-06 2022-08-05 华东师范大学 一种基于蛋白环境描述小分子片段属性的指纹设计方法
WO2021218791A1 (zh) * 2020-04-29 2021-11-04 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN111755081A (zh) * 2020-05-06 2020-10-09 北京化工大学 一种高甲烷吸附率MOFs生成与筛选的方法
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111710375B (zh) * 2020-05-13 2023-07-04 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111695702B (zh) * 2020-06-16 2023-11-03 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
WO2022222492A1 (zh) * 2021-04-23 2022-10-27 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
CN113192571A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113192572A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113192572B (zh) * 2021-04-29 2022-08-23 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113192571B (zh) * 2021-04-29 2022-08-23 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN113393911B (zh) * 2021-06-23 2022-08-19 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选方法
CN115240762A (zh) * 2021-07-23 2022-10-25 杭州钛石科技有限公司 多尺度小分子虚拟筛选方法及系统
CN115240762B (zh) * 2021-07-23 2023-07-18 杭州生奥信息技术有限公司 多尺度小分子虚拟筛选方法及系统
CN114049922B (zh) * 2021-11-09 2022-06-03 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114049922A (zh) * 2021-11-09 2022-02-15 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114187978A (zh) * 2021-11-24 2022-03-15 中山大学 一种基于深度学习连接片段的化合物优化方法
WO2023123149A1 (zh) * 2021-12-30 2023-07-06 深圳晶泰科技有限公司 虚拟分子筛选系统、方法、电子设备及计算机可读存储介质
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN114708931A (zh) * 2022-04-22 2022-07-05 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法

Also Published As

Publication number Publication date
CN110459274B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN110459274A (zh) 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
Shishavan et al. An improved cuckoo search optimization algorithm with genetic algorithm for community detection in complex networks
Abualigah Group search optimizer: a nature-inspired meta-heuristic optimization algorithm with its results, variants, and applications
Hancer et al. Pareto front feature selection based on artificial bee colony optimization
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
Pan et al. Hybrid immune algorithm based on greedy algorithm and delete-cross operator for solving TSP
CN104331642B (zh) 用于识别细胞外基质蛋白的集成学习方法
Zhan et al. Learning-aided evolution for optimization
CN113327644A (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN107729497A (zh) 一种基于知识图谱的词嵌入深度学习方法
Zabihi et al. A novel history-driven artificial bee colony algorithm for data clustering
Pintea Advances in bio-inspired computing for combinatorial optimization problems
Liang et al. A novel multiple rule sets data classification algorithm based on ant colony algorithm
Hamdani et al. Hierarchical genetic algorithm with new evaluation function and bi-coded representation for the selection of features considering their confidence rate
Mu et al. Multi-objective ant colony optimization algorithm based on decomposition for community detection in complex networks
CN110263979A (zh) 基于强化学习模型预测样本标签的方法及装置
CN110021341A (zh) 一种基于异构网络的gpcr药物和靶向通路的预测方法
CN110427484A (zh) 一种基于深度学习的中文自然语言处理方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
Osama et al. Machine learning techniques in plant biology
CN105260746A (zh) 一种可扩展的多层集成多标记学习系统
Czajkowski et al. Steering the interpretability of decision trees using lasso regression-an evolutionary perspective
Kadkhodaei et al. An entropy based approach to find the best combination of the base classifiers in ensemble classifiers based on stack generalization
CN106126973A (zh) 基于r‑svm和tpr规则的基因功能预测方法
Harifi et al. Using Metaheuristic Algorithms to Improve k-Means Clustering: A Comparative Study.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant