CN107862173A - 一种先导化合物虚拟筛选方法和装置 - Google Patents

一种先导化合物虚拟筛选方法和装置 Download PDF

Info

Publication number
CN107862173A
CN107862173A CN201711129689.8A CN201711129689A CN107862173A CN 107862173 A CN107862173 A CN 107862173A CN 201711129689 A CN201711129689 A CN 201711129689A CN 107862173 A CN107862173 A CN 107862173A
Authority
CN
China
Prior art keywords
molecular fingerprint
molecular
ligand
fingerprint
activity value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711129689.8A
Other languages
English (en)
Other versions
CN107862173B (zh
Inventor
吴建盛
朱文勇
张邱鸣
姜烨
孙顾威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201711129689.8A priority Critical patent/CN107862173B/zh
Publication of CN107862173A publication Critical patent/CN107862173A/zh
Application granted granted Critical
Publication of CN107862173B publication Critical patent/CN107862173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种先导化合物虚拟筛选方法和装置。包括先导化合物在药物靶标上的分子指纹的生成和先导化合物与药物靶标相互作用的生物活性的预测。分子指纹生成包括基于模块单元的分子指纹、加权分子指纹和生物活性三个部分。生物活性预测是利用配体分子指纹和生物活性值作为随机森林回归模型的输入,构建了预测模型。另外,本发明的装置包括基于配体的虚拟筛选的通用工具、先导化合物与药物靶标作用的生物活性的预测工具和先导化合物在药物靶标上的分子指纹的生成工具。目前用于生物活性预测、性能优越的分子指纹往往长度较大,而本发明设计的深度学习算法可以生成短的、性能好的分子指纹,得到最好的药物靶标配体的生物活性预测模型。

Description

一种先导化合物虚拟筛选方法和装置
技术领域
本申请涉及一种先导化合物虚拟筛选方法和装置,属于计算机技术领域。
背景技术
随着上个世纪末生命科学的快速发展,人类基因组计划(Human Genome Project,HGP)的完成和后续功能基因组计划的实施,药物研究和医学药物产业进入了一个新的历史时期。
众所周知,新药物的研发是一个高投入、低效率的工作,包括靶点识别与验证、生物检测、先导化合物的发现及优化、临床验证、上市这五个步骤。其中,先导化合物是通过各种途径和手段得到的具有某种生物活性和化学结构的化合物,其具有药理学或生物学活性,可被用于开发新药,以提高药力、选择性,改善药物动力学性质。与此同时,它还有衍生化和改变结构的发展潜力,可用作研究模型,经过结构优化和生物测定,可以发现并研制出具有相应活性的新药。
据统计,一种新药物从筛选到成功上市,平均需要10到14年的时间,中间过程的花费更是高达2至3.5亿美元。目前,临床阶段的候选药物淘汰率高达90%,因此,如何缩短先导化合物的发现及优化这一阶段所花费的时间,加快临床研究的速度就成了各大制药公司和学术机构的研究重点。随着21世纪计算机化学以及生物学的快速发展,虚拟药物筛选技术已经成为药物化学发展的重要分支,尤其在药物先导结构和新靶标的发现方面起到了举足轻重的作用。
由于实体的药物筛选需要构建大规模的化合物库,提取或培养大量实验必须的靶酶或者靶细胞,并且需要复杂的设备支持,因而进行实体的药物筛选要投入巨额的资金。但是,作为现代计算机技术与传统制药领域优秀结合的产物,虚拟药物筛选是将药物筛选的过程在计算机上模拟,对化合物可能的活性做出预测,进而对比较有可能成为药物的化合物进行有针对性的实体筛选,从而可以极大地减少药物开发成本。所以,其快速廉价的特点使之成为发展最为迅速的药物筛选技术之一。
但是,建立合理的药效团模型、准确测定或预测靶标蛋白质的分子结构、精确和快速地计算候选化合物与靶标相互作用的自由能变化是进行虚拟药物筛选的关键,也是限制虚拟筛选准确性的瓶颈。所以,虚拟筛选在提高准确性方面还存在很大的技术瓶颈。
虚拟筛选技术可以分为基于受体生物大分子结构(Structure-based)和基于配体小分子(Ligand-based)这两种类型。基于受体生物大分子结构的虚拟筛选技术是采用理论计算和分子模拟的方法,根据受体分子的三维结构为基础建立受体-配体小分子的复合物三维结构,以及结合过程中发生的相互作用两个发面来设计能与受体结合腔互补的新分子。所以,这种类型主要是通过模拟化合物与药物靶标的物理学相互作用现象来进行化合物筛选,但它往往需要知道靶标和化合物分子精确的三维结构。基于配体小分子的虚拟筛选技术多用于手提大分子三维结构尚未解析的情况,主要是通过已知的数据来预测化合物与靶标相互作用,而其中基于机器学习的方法是主流的方法,在药物虚拟筛选中得到了成功的应用。
在实际的药物设计商业应用中,虚拟筛选通常需要有好的预测性能。目前已有大量的基于机器学习的虚拟筛选方法,这些方法通过提取化合物分子的特征,如各种分子指纹和分子描述符,并使用贝叶斯统计方法、最近邻方法、支持向量机和人工神经网络等机器学习方法对化合物分子进行高通量的虚拟筛选。尤其是,近年来深度学习方法已经成功应用于基于配体的药物虚拟筛选及其分子指纹生成研究,并表现出了较好的预测性能。
目前,基于机器学习的虚拟筛选方法一般做法都是,先使用软件得到固定长度的化合物特征,包括分子指纹和分子描述符等,再调用机器学习方法构建模型。然而,这些一般方法得到的手工提取的特征通常与是固定不变的,与相应的药物靶标以及其作用活性无关,也就是说,普遍使用的虚拟筛选方法不能通过自适应学习得到相对应的化合物特征,以弥补手工提取的特征和作用于不同药物靶标的活性值之间存在的语义鸿沟。除此以外,传统的手工提取特征通常需要研究者对相应领域的知识具有一定的了解,这样就限制了没有领域知识基础的人群的使用。
目前已有很多的分子指纹类型,主要可以分为基于关键子结构的分子指纹、基于拓扑结构或路径的分子指纹以及环形指纹。目前,在基于配体活性的虚拟筛选中,具有良好性能的分子指纹通常长度较大。例如,在删除了很少发生的特征之后,长度大小为仍为43000的扩展连通性环形指纹向量就可以很清楚的说明这一点。而且,由于化合物数量往往非常巨大,如果需要构建好的基于机器学习的配体活性虚拟筛选模型将非常耗时,并且在实际的应用中通常难于构建如此庞大虚拟筛选模型。因此,在如今实际的虚拟药物筛选中,急切地需要能够得到相对较短的、性能较好的分子指纹的生成方法。
发明内容
本发明目的在于针对上述现有技术的不足,提出了一种先导化合物虚拟筛选方法,该方法无需使用者对领域知识有深入透彻的理解就可以使用。
本发明解决其技术问题所采取的技术方案是:一种先导化合物虚拟筛选方法,该方法包括如下步骤:
步骤1:进行关于Hl(l∈[1,L],V∈[1,5]),W,P,O;f←0s,F←0s的初始化。
步骤2:从给定一组用于训练的n个配体的数据D中随机抽取一批子集S。
步骤3:通过Rdkit,计算得到子集S中每一个分子的化学信息数据。
步骤4:利用公式通过累加操作考虑原子α的所有近邻原子信息。
步骤5:利用公式通过卷积操作考虑原子α的连接化学键的信息。
步骤6:利用公式ca=s(maHl),通过卷积操作计算ca,其中ma是Ia和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果,ca是ma和连接权重向量乘积的softmax函数的结果。
步骤7:利用公式f=f+ca,对分子进行累加操作依次得到每一模块单元的分子指纹f,即分子指纹f是每一模块单元的ca的累加。
步骤8:利用公式将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹F。加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹。
步骤9:利用公式预测得到生物配体的活性。由于药物靶标与配体相互作用的生物活性值跨度太大,在本发明构建的回归预测模型中,使用的活性值为-log10v,其中v是生物活性值,以此来缩小生物活性值的跨度。生物活性生成部分由两个全连接层构成。
步骤10:得到预测活性值后,利用公式计算目标损失函数。通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,来达到模型的最小化预测活性值与真实活性值的均方误差的目的。该优化包括两部分,第一部分是正则化的二次成本函数,其考虑了估计项目与观测值的偏差;第二部分是控制模型复杂性并避免过度拟合的正则化条件。
步骤11:通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新,为每个模块单元给定属性向量ma的特征维度、指纹长度B和中间层的M个神经元。不断更新梯度和平方斜率的指数移动平均值,并在初始化时间步长期间,将这些移动平均值被初始化为全为0的向量,并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新。
步骤12:判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的加权分子指纹F。
步骤13:构建随机森林回归预测模型:P=Predictor(F,Y)。随机森林是M个决策树{T1(x),...,TM(x)}的集合,其中,x={x1,...,xk}是配体指纹的k维向量。随机森林模型产生M个输出结果其中,是第m个树的配体预测值。继而,再组合所有树的输出以产生一个最终预测即为个体树预测的平均值。在给定一组用于训练的n个配体的数据D={(X1,Y1),...,(Xn,Yn)}后,其中,Xi(i=1,...,n)是指纹向量,Yi是配体的活性值,随机森林回归预测模型进行了如下的训练程序:
(1)从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随机取样替代,产生n个训练样本;
(2)对于每个引导样本数据集,使用以下方案生成树:在每个节点,选择随机获取到的特征子集中的最佳分割。树生长到最大尺寸,即直到没有更多的分裂是可能的,而不是进行修剪;
(3)重复上述步骤直到M个这样的树生长出来。
本发明还提供了一种用于先导化合物虚拟筛选的装置,该装置包括基于配体的虚拟筛选的通用工具demo_new、先导化合物与药物靶标作用的生物活性的预测工具demo_activity、先导化合物在药物靶标上的分子指纹的生成工具demo_fp三个部分。
装置的demo_new部分提供了自主开发药物靶标的虚拟筛选工具。输入:SMILES格式的化合物及其生物活性值。输出:模型的性能(RMSE、r2和q2值)。包括:输入SMILES格式的化合物及其生物活性值→训练加权深度学习模型→得到加权分子指纹→构建随机森林回归模型→得到RMSE等指标。
装置的demo_activity部分可以预测先导化合物与药物靶标相互作用的生物活性值,并将其应用于针对这些药物靶标的新药设计,药物副作用的预测及药物研发风险的评估。输入:SMILES格式的化合物。输出:与这些GPCR药物靶标作用的生物活性值。包括:输入SMILES格式的化合物---基于我们训练好的加权深度学习模型得到分子指纹----基于我们训练好的随机森林模型得到作用的生物活性值。
装置的demo_fp部分可以得到先导化合物在药物靶标上的多种短的分子指纹,可用于化合物的相似性搜索、药效基团搜索等。包括:输入:SMILES格式的化合物。输出:分子指纹。其步骤为:输入SMILES格式的化合物---基于我们训练好的加权深度学习模型得到分子指纹。
有益效果:
1、本发明能够很好地应用于药物靶标的配体生物活性预测模型,并且能够设计出以获得的短的、性能好的分子指纹生成方法。
2、通过本发明设计出的深度学习算法,用户可以在此基础上很容易自主开发感兴趣的药物靶标的虚拟筛选工具;也可以预测新化合物与药物靶标相互作用的生物活性值,并将其应用于针对这些药物靶标的新药设计,药物副作用的预测及药物研发风险的评估;也可以得到新化合物在药物靶标上的多种短的分子指纹,以此用于化合物的相似性搜索、药效基团搜索。
附图说明
图1为本发明的新型加权深度学习模型(WDL)的前馈结构图。
图2为本发明的方法流程图。
图3为本发明的装置框架图。
具体实施方式
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单地介绍,显而易见地是,下面描述中的附图是本发明的一个算法模型,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
为使本发明的算法、模型的技术方案和优点更加清楚,下面将结合本发明算法、模型中的附图,对本发明算法、模型进行清楚、完整地描述。基于本发明中的算法、模型,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他算法、模型,都属于本发明保护的范围。
本发明提出了一种全新的两阶段算法WDL-RF包括基于新型加权深度学习的分子指纹生成阶段和基于随机森林模型的作用活性预测阶段,将分子指纹生成和生物活性预测融合为一体。
在本发明中,新型加权深度学习方法(WDL)为“端到端”的数据驱动的分子指纹自动生成方法,无需手工提取特征,性能好,弥补了传统手工提取的特征和作用活性值之间存在的差距。
由于药物靶标与配体相互作用的生物活性值跨度太大,在本发明中构建的回归预测模型中,由于生物活性值跨度过于庞大,难以确立一个统一的标准,所以构建了以生物活性值为主要决定因素的活性值。活性值可以反映配体分子与药物靶标作用的生物活性值大小,在我们的数据集中,给其赋予了一定合理的取值范围,值越小表示配体的生物活性越低。
另外,对每个药物靶标数据集,为了得到更好的配体作用生物活性回归预测模型,本发明添加了一些对照配体样本。具体做法是:对每个药物靶标数据集,从另外的药物靶标数据集中随机选择一些与目标药物靶标不发生作用的对照配体。对于对照配体样本,其回归模型中的活性值取取值范围内的最小值。
本发明利用第一阶段生成的配体分子指纹和反应生物活性值作为随机森林回归模型的输入,用来构建预测模型。
本发明分子指纹的长度都统一选取了一个固定的值,并使用随机森林回归方法来构建配体生物活性预测模型。在本发明中,分子指纹输出结果总共有五个层面。其中,第一层到第四层分别表示加权深度学习模型中不同层生成的分子指纹;第五层为本文默认的分子指纹,即其他四层的加权分子指纹。本发明使用的加权分子指纹几乎在所有药物靶标数据集和所有评价指标上,均要好于不同层生成的分子指纹。这是因为不同层模块单元生成的分子指纹包含的信息不同,而本发明的加权分子指纹,综合考虑了所有不同的信息,所以模型的预测性能得到了提高。
由于药物靶标与配体相互作用的生物活性值跨度太大,在本发明构建的回归预测模型中,使用的response=-log10v,其中v是生物活性值。
本发明提出新型加权深度学习模型(WDL)的前馈结构图,其包括三个部分,即基于模块单元的分子指纹生成(Ⅰ)、加权分子指纹生成(Ⅱ)和生物活性生成(Ⅲ)。
基于模块单元的分子指纹的生成部分,包含了多个模块单元。对于每个模块单元,都划分成4层,分别为累加,卷积,卷积和累加这四种操作。
加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹,即本文默认的加权分子指纹。生物活性生成部分是由两个全连接层构成。
起初,本发明给定配体分子数据集D={(x1,y1),...,(xn,yn)},其中i=1,...,n,其中xi表示第i个配体分子,yi表示其生物活性值。对配体分子xi,假设其含有Ai个原子,本发明通过Rdkit工具得到每个原子的属性向量mj,其中j=1,...,Ai
假设本发明的模型含有L个模块单元,对于第l个模块单元,假设配体分子xi中的任意原子α属性向量为ma,其含有Na个近邻原子。
首先,本发明先通过累加操作考虑了原子α的所有近邻原子信息,及利用公式
然后,再通过第一个卷积操作考虑了原子α的连接化学键的信息,利用公式
其中,l∈[1,L];V代表原子α的连接化学键数量,V∈[1,5];权重矩阵用于表征原子连接的化学键信息,需要迭代更新。σ(.)为ReLU激活函数,即
继而,本发明利用第二个卷积操作计算
ca=s(maHl) (4)
其中,l∈[1,L];Hl为连接权重向量,需要迭代更新;s(.)表示作为索引的可微分类比的softmax函数,即
最后,本发明再对分子进行累加操作依次得到每一模块单元的分子指纹f,即
f=f+ca (6)
对分子xl,本发明将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹F,利用公式
其中L是模块单元的数量,l∈[1,L],W是模块单元生成的分子指纹与加权分子指纹层之间的连接权重;σ(.)为ReLU激活函数。
得到加权分子指纹Fi后,本发明通过两个全连接层得到配体分子xi预测活性值,假设加权分子指纹层第j个神经元与中间层第m个神经元之间的连接权重为Pjm,即
zm=σ(∑pjmFij) (8)
假设中间层第m个神经元与输出层神经元s之间的连接权为oms,则
其中σ(.)为ReLU激活函数。
得到预测活性值后,本发明模型的目的是最小化预测活性值与真实活性值的均方误差,所以本发明中的提出优化方案是
其中n表示训练数据集中配体分子个数,yi分别表示分子xi的真实活性值与预测活性值,θ为加权深度学习模型中需要求解的权重参数。
本发明的优化方案中,第一项是正则化的二次成本函数,其考虑了估计项目与观测值的偏差。第二项是控制模型复杂性并避免过度拟合的正则化条件,其中,λ是用于平衡损失函数项和正则化约束条件,且λ=e-2
本发明利用Adam算法来对本发明的加权深度学习模型中的所有权重参数θ进行更新,为每个模块单元给定属性向量ma的特征维度、指纹长度B和中间层的M个神经元。权重参数θ由Hl∈RA×B,W∈RB×B,P∈RB×M和O∈RM组成。
Adam是一种采用基于一阶梯度的方法来计算每个参数自适应学习率的随机优化方法。假设为目标函数方程(11)在第t轮迭代时参数θ的梯度。Adam方法通过式(6)–(9)计算梯度的一阶矩估计mt、二阶矩估计vt和它们的偏差矫正f(θ)为目标函数,即为等式(10)。并且使用表示梯度,在时间步长t上评估的Et和θ的偏导数向量。
该算法更新了梯度mt和平方斜率vt的指数移动平均值,其中超参数β1,β1∈[0,1)控制这些移动平均线的指数衰减率,
mt=βl·mt-1+(1-β1)·gt (11)
vt=β2·vt-1+(1-β2)·gt 2 (12)
其中,gt 2表示元素的平方gt⊙gt
移动平均值本身是第一个时刻的估计(平均值)和第二个原始时刻的梯度(非中心方差)。在初始化时间步长期间,这些移动平均值被初始化为全为0的向量,这会导致偏向零的时刻估计,但是这种初始化偏差可以抵消导致偏差校正的估计量
其中,是β1,β2的t次幂。
最后,权重参数θ会被更新,通过
其中,α为步长。。
在基于Adam算法的优化中,本发明采用mini-batch的策略,例如每一轮更新迭代中随机选取100样本个数100个样本,最大迭代次数设为250。
在训练过程中,普遍实施的正则化技术dropout仅是通过保持神经元活动的一些概率来实现的,否则将其设置为零,用来克服过拟合的产生。
本发明利用第一阶段生成的配体分子指纹和反应生物的活性值作为随机森林回归模型的输入,构建预测模型。
在本发明中,随机森林是M个决策树{T1(x),...,TM(x)}的集合,其中,x={x1,...,xk}是配体指纹的k维向量。随机森林模型产生M个输出结果其中,是第m个树的配体预测值。然后,再组合所有树的输出以产生一个最终预测即为个体树预测的平均值。
给定一组用于训练的n个配体的数据D={(X1,Y1),...,(Xn,Yn)},其中,Xi(i=1,...,n)是指纹向量,Yi是配体的生物活性值,训练程序如下:
从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随机取样替代,产生n个训练样本;
对于每个引导样本数据集,使用以下方案生成树:在每个节点,选择随机获取到的特征子集中的最佳分割。树生长到最大尺寸,即直到没有更多的分裂是可能的,而不是进行修剪;
重复上述步骤直到M个这样的树生长出来。
随机森林回归模型的预测性能通过所谓的Out-Of-Bags(OOB)样本进行评估。平均而言,每棵树使用约1-e-1≈2/3的训练配体生长,所以将剩下的e-1≈1/3作为OOB。
具体的,表2提供了本发明的算法WDL-RF的伪代码。
表2
本发明考虑到随机森林对不同的参数值更为鲁棒及性能更好。所以在WDL-RF算法中,使用的是随机森林回归模型。
本发明考虑了随机森林回归模型中主要参数n_estimates和max_features对结果的影响。其中,n_estimates是随机森林中生成决策树的数量,max_features是每次生成决策树时选择的特征个数。本发明中参数max_features考虑了all(m),sqrt(m)和log2(m)三种情况,其中m为分子指纹的维数,all(m)表示使用分子指纹所有的维数。通过多次比较n_estimates默认值取100,max_features设为
本发明采用三种评价指标:均方根误差(RMSE)、相关系数r2、预测平方相关系数q2。均方根误差(RMSE)是回归预测中最常用的评价指标为:
其中yi分别为真实活性值和预测活性值,n为配体样本数量。RMSE值越小,表示模型越好。
相关系数r2是2012年Merck公司组织的关于药物活性预测的Kaggle challenge中使用的评价指标为:
其中yi为真实活性值,为真实活性值的平均值,为预测活性值,为预测活性值的平均值,n为配体样本数量。r2值越大,表示模型越好。
预测平方相关系数q2也常用于活性值回归预测模型的评价
其中,yi为已知活性值,为真实活性值的平均值,为预测活性值,n为配体样本数量。q2值越大,表示模型越好。
本发明为了消除随机挑选对照样本对结果的影响,对每个药物靶标数据集,随机选取了3组对照配体样本,分别构建配体作用生物活性预测模型,并通过计算“均值±方差”作为最终的结果。

Claims (6)

1.一种先导化合物虚拟筛选方法,其特征在于,所述方法包括如下步骤:
步骤1:进行关于W,P,O;f←0s,F←0s的初始化;
步骤2:从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
步骤3:通过Rdkit工具和配体的smile格式,得到子集S中每一个分子的化学信息数据;
步骤4:利用公式通过累加操作考虑原子α的所有近邻原子信息;
步骤5:利用公式通过卷积操作考虑原子α的连接化学键的信息;
步骤6:利用公式ca=s(maHl),通过卷积操作计算ca,其中ma是Ia和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果,ca是ma和连接权重向量乘积的softmax函数的结果;
步骤7:利用公式f=f+ca,对分子进行累加操作依次得到每一模块单元的分子指纹f,即分子指纹f是每一模块单元的ca的累加;
步骤8:利用公式将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹F,加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹;
步骤9:利用公式预测得到生物配体的活性,使用的活性值为-log10v,其中v是生物活性值,以此来缩小生物活性值的跨度,生物活性生成部分是由两个全连接层构成;
步骤10:得到预测活性值后,通过公式的计算,可以得到目标损失函数,通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括第一部分是正则化的二次成本函数,其考虑了估计项目与观测值的偏差,第二部分是控制模型复杂性并避免过度拟合的正则化条件;
步骤11:通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新,为每个模块单元给定属性向量ma的特征维度、指纹长度B和中间层的M个神经元,不断更新梯度和平方斜率的指数移动平均值,并在初始化时间步长期间,将这些移动平均值初始化为全0的向量,并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新;
步骤12:判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的加权分子指纹F;
步骤13:构建随机森林回归预测模型:P=Predictor(F,Y),随机森林是M个决策树{T1(x),...,TM(x)}的集合,其中,x={x1,..,xk}是配体指纹的k维向量,随机森林模型产生M个输出结果其中,是第m个树的配体预测值,继而,再组合所有树的输出以产生一个最终预测即为个体树预测的平均值,在给定一组用于训练的n个配体的数据D={(X1,Y1),...,(Xn,Yn)}后,其中,n为用于训练的配体个数,Xi(i=1,...,n)是指纹向量,Yi是配体的活性值。
2.根据权利要求1所述的一种先导化合物虚拟筛选方法,其特征在于,所述步骤13包括:
(1)从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随机取样替代,产生n个训练样本;
(2)对于每个引导样本数据集,使用以下方案生成树:在每个节点,选择随机获取到的特征子集中的最佳分割,树生长到最大尺寸,即直到没有更多的分裂是可能的,而不是进行修剪;
(3)重复上述步骤(1)-(2)直到M个这样的树生长出来,其中M为随机森林回归预测模型中树的个数。
3.一种用于先导化合物虚拟筛选的装置,其特征在于,所述装置包括基于配体的虚拟筛选的通用工具demo_new、先导化合物与药物靶标作用的生物活性的预测工具demo_activity和先导化合物在药物靶标上的分子指纹的生成工具demo_fp。
4.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置,其特征在于,所述装置的demo_new提供了自主开发药物靶标的虚拟筛选工具,输入:SMILES格式的化合物及其生物活性值,输出:模型的性能。
5.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置,其特征在于,所述装置的demo_activity预测先导化合物与药物靶标相互作用的生物活性值,并将其应用于针对这些药物靶标的新药设计,药物副作用的预测及药物研发风险的评估,输入:SMILES格式的化合物,输出:与这些GPCR药物靶标作用的生物活性值。
6.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置,其特征在于,所述装置的demo_fp得到先导化合物在药物靶标上的多种短的分子指纹,用于化合物的相似性搜索、药效基团搜索,输入:SMILES格式的化合物,输出:分子指纹。
CN201711129689.8A 2017-11-15 2017-11-15 一种先导化合物虚拟筛选方法和装置 Active CN107862173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711129689.8A CN107862173B (zh) 2017-11-15 2017-11-15 一种先导化合物虚拟筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711129689.8A CN107862173B (zh) 2017-11-15 2017-11-15 一种先导化合物虚拟筛选方法和装置

Publications (2)

Publication Number Publication Date
CN107862173A true CN107862173A (zh) 2018-03-30
CN107862173B CN107862173B (zh) 2021-04-27

Family

ID=61703004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711129689.8A Active CN107862173B (zh) 2017-11-15 2017-11-15 一种先导化合物虚拟筛选方法和装置

Country Status (1)

Country Link
CN (1) CN107862173B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559786A (zh) * 2018-11-08 2019-04-02 三峡大学 基于量子群智能优化的先导化合物发现与合成方法
CN109741797A (zh) * 2018-12-10 2019-05-10 中国药科大学 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN110047559A (zh) * 2019-03-06 2019-07-23 山东师范大学 蛋白质与药物结合自由能的计算方法、系统、设备及介质
CN110176279A (zh) * 2019-05-31 2019-08-27 南京邮电大学 基于小样本的先导化合物虚拟筛选方法和装置
CN110444250A (zh) * 2019-03-26 2019-11-12 广东省微生物研究所(广东省微生物分析检测中心) 基于分子指纹和深度学习的高通量药物虚拟筛选系统
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
JP2020071827A (ja) * 2018-11-02 2020-05-07 昭和電工株式会社 ポリマー設計装置、プログラム、および方法
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN111462833A (zh) * 2019-01-20 2020-07-28 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
WO2021004021A1 (zh) * 2019-12-20 2021-01-14 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN112955962A (zh) * 2019-10-11 2021-06-11 迈立塔股份有限公司 新药候选物质导出方法及装置
CN113053470A (zh) * 2019-12-26 2021-06-29 财团法人工业技术研究院 药物筛选系统与药物筛选方法
CN113192572A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN113571124A (zh) * 2020-04-29 2021-10-29 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN113628697A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种针对分类不平衡数据优化的随机森林模型训练方法
CN113808683A (zh) * 2021-09-02 2021-12-17 深圳市绿航星际太空科技研究院 基于受体和配体的药物虚拟筛选的方法及系统
CN114702450A (zh) * 2022-04-15 2022-07-05 大连理工大学 一类作用于abl1酪氨酸激酶的化合物及其应用
CN118506921A (zh) * 2024-06-13 2024-08-16 中国中医科学院中医临床基础医学研究所 一种基于化学空间的定量筛选新药先导物的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002012889A2 (en) * 2000-08-08 2002-02-14 Callistogen Ag Focussing of compound libraries according to biological activities or properties
CN101855392A (zh) * 2007-11-12 2010-10-06 电子虚拟生物科技株式会社 虚拟筛选装置及虚拟筛选方法
WO2014207670A1 (en) * 2013-06-25 2014-12-31 Council Of Scientific & Industrial Research Simulated carbon and proton nmr chemical shifts based binary fingerprints for virtual screening
CN104636619A (zh) * 2015-02-10 2015-05-20 青岛农业大学 一种快速虚拟筛选人体小肠易吸收药物的方法
CN106446607A (zh) * 2016-09-26 2017-02-22 华东师范大学 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法
CN106778032A (zh) * 2016-12-14 2017-05-31 南京邮电大学 药物设计中配体分子海量特征筛选方法
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002012889A2 (en) * 2000-08-08 2002-02-14 Callistogen Ag Focussing of compound libraries according to biological activities or properties
CN101855392A (zh) * 2007-11-12 2010-10-06 电子虚拟生物科技株式会社 虚拟筛选装置及虚拟筛选方法
WO2014207670A1 (en) * 2013-06-25 2014-12-31 Council Of Scientific & Industrial Research Simulated carbon and proton nmr chemical shifts based binary fingerprints for virtual screening
CN104636619A (zh) * 2015-02-10 2015-05-20 青岛农业大学 一种快速虚拟筛选人体小肠易吸收药物的方法
CN106446607A (zh) * 2016-09-26 2017-02-22 华东师范大学 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法
CN106778032A (zh) * 2016-12-14 2017-05-31 南京邮电大学 药物设计中配体分子海量特征筛选方法
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ALEXIOS KOUTSOUKAS等: ""Predictive Toxicology: Modeling Chemical Induced Toxicological Response Combining Circular Fingerprints with Random Forest and Support Vector Machine"", 《FRONTIERS IN ENVIRONMENTAL SCIENCE》 *
DAVID DUVENAUD等: ""Convolutional networks on graphs for learning molecular fingerprints"", 《IN ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
JUN HU等: ""GPCR–drug interactions prediction using random forest with drug-association-matrix-based post-processing procedure"", 《COMPUTATIONAL BIOLOGY AND CHEMISTRY》 *
THOMAS UNTERTHINER等: ""Deep Learning as an Opportunity in Virtual Screening"", 《IN ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
侯旭奔: ""基于计算机模拟技术的药物先导化合物的快速发现与活性评价"", 《中国博士学位论文全文数据库 医药卫生科技辑》 *
李加忠: ""QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用"", 《中国博士学位论文全文数据库 医药卫生科技辑》 *
谭善阳: ""多种虚拟筛选工具的比较研究及其组合运用"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
陈宪: ""基于OECD准则对QSAR/QSPR模型几个重要问题的研究"", 《中国博士学位论文全文数据库 工程科技I辑》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7109339B2 (ja) 2018-11-02 2022-07-29 昭和電工株式会社 ポリマー設計装置、プログラム、および方法
JP2020071827A (ja) * 2018-11-02 2020-05-07 昭和電工株式会社 ポリマー設計装置、プログラム、および方法
CN109559786B (zh) * 2018-11-08 2022-04-08 三峡大学 基于量子群智能优化的先导化合物发现与合成方法
CN109559786A (zh) * 2018-11-08 2019-04-02 三峡大学 基于量子群智能优化的先导化合物发现与合成方法
CN109741797B (zh) * 2018-12-10 2023-01-31 中国药科大学 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN109741797A (zh) * 2018-12-10 2019-05-10 中国药科大学 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN111462833B (zh) * 2019-01-20 2023-05-23 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
CN111462833A (zh) * 2019-01-20 2020-07-28 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
CN110047559A (zh) * 2019-03-06 2019-07-23 山东师范大学 蛋白质与药物结合自由能的计算方法、系统、设备及介质
US11581061B2 (en) * 2019-03-26 2023-02-14 Guangdong Institute Of Microbiology (Guangdong Detection Center Of Microbiology) High-throughput virtual drug screening system based on molecular fingerprints and deep learning
CN110444250A (zh) * 2019-03-26 2019-11-12 广东省微生物研究所(广东省微生物分析检测中心) 基于分子指纹和深度学习的高通量药物虚拟筛选系统
WO2020125812A1 (zh) * 2019-03-26 2020-06-25 广东省微生物研究所(广东省微生物分析检测中心) 基于分子指纹和深度学习的高通量药物虚拟筛选系统
US20210217487A1 (en) * 2019-03-26 2021-07-15 Guangdong Institute Of Microbiology (Guangdong Detection Center Of Microbiology) High-Throughput Virtual Drug Screening System Based on Molecular Fingerprints and Deep Learning
CN110176279B (zh) * 2019-05-31 2022-08-26 南京邮电大学 基于小样本的先导化合物虚拟筛选方法和装置
CN110176279A (zh) * 2019-05-31 2019-08-27 南京邮电大学 基于小样本的先导化合物虚拟筛选方法和装置
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110459274B (zh) * 2019-08-01 2022-08-26 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110534153B (zh) * 2019-08-30 2024-04-19 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN112955962A (zh) * 2019-10-11 2021-06-11 迈立塔股份有限公司 新药候选物质导出方法及装置
CN112955962B (zh) * 2019-10-11 2024-07-05 迈立塔股份有限公司 新药候选物质导出方法及装置
WO2021004021A1 (zh) * 2019-12-20 2021-01-14 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN113053470A (zh) * 2019-12-26 2021-06-29 财团法人工业技术研究院 药物筛选系统与药物筛选方法
WO2021218791A1 (zh) * 2020-04-29 2021-11-04 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN113571124A (zh) * 2020-04-29 2021-10-29 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN113571124B (zh) * 2020-04-29 2024-04-23 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
CN113192572B (zh) * 2021-04-29 2022-08-23 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113192572A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
CN113393911B (zh) * 2021-06-23 2022-08-19 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选方法
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN113628697A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种针对分类不平衡数据优化的随机森林模型训练方法
CN113808683A (zh) * 2021-09-02 2021-12-17 深圳市绿航星际太空科技研究院 基于受体和配体的药物虚拟筛选的方法及系统
CN114702450A (zh) * 2022-04-15 2022-07-05 大连理工大学 一类作用于abl1酪氨酸激酶的化合物及其应用
CN118506921A (zh) * 2024-06-13 2024-08-16 中国中医科学院中医临床基础医学研究所 一种基于化学空间的定量筛选新药先导物的方法

Also Published As

Publication number Publication date
CN107862173B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
CN110459274B (zh) 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
Yan et al. Machine learning bridges omics sciences and plant breeding
Jiang et al. Predicting protein function by multi-label correlated semi-supervised learning
Dehuri et al. Evolutionarily optimized features in functional link neural network for classification
Urda et al. Deep learning to analyze RNA-seq gene expression data
CN111724867B (zh) 分子属性测定方法、装置、电子设备及存储介质
Yeh et al. Artificial bee colony algorithm-neural networks for S-system models of biochemical networks approximation
CN112951328B (zh) 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统
Mitra et al. Genetic networks and soft computing
CN113168568A (zh) 用于具有深度特征化的主动迁移学习的系统和方法
Osama et al. Machine learning techniques in plant biology
WO2021217138A1 (en) Method for efficiently optimizing a phenotype with a combination of a generative and a predictive model
CN116629352A (zh) 一种亿级参数寻优平台
Jafari et al. RETRACTED ARTICLE: Solving the protein folding problem in hydrophobic-polar model using deep reinforcement learning
Chi et al. Reconstructing gene regulatory networks with a memetic-neural hybrid based on fuzzy cognitive maps
Sun et al. Tetramer protein complex interface residue pairs prediction with LSTM combined with graph representations
Xiong et al. Structural systems identification of genetic regulatory networks
Sanchez Reconstructing our past˸ deep learning for population genetics
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
da Silva et al. Deep learning strategies for enhanced molecular docking and virtual screening
Ramachandran et al. Deep learning for better variant calling for cancer diagnosis and treatment
CN111626332A (zh) 一种基于图卷积极限学习机的快速半监督分类方法
Zhang et al. Drug-Target Interaction Prediction Based on Knowledge Graph Embedding and BiLSTM Networks
Halder et al. ccLoopER: Deep Prediction of C TCF and c ohesin Mediated Chromatin loop ing Using DNA Transform er Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant