CN113707239B - 一种基于药物化学转化规则的先导化合物优化方法 - Google Patents

一种基于药物化学转化规则的先导化合物优化方法 Download PDF

Info

Publication number
CN113707239B
CN113707239B CN202110992191.4A CN202110992191A CN113707239B CN 113707239 B CN113707239 B CN 113707239B CN 202110992191 A CN202110992191 A CN 202110992191A CN 113707239 B CN113707239 B CN 113707239B
Authority
CN
China
Prior art keywords
data
molecules
compound
screening
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110992191.4A
Other languages
English (en)
Other versions
CN113707239A (zh
Inventor
曹东升
杨梓宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110992191.4A priority Critical patent/CN113707239B/zh
Publication of CN113707239A publication Critical patent/CN113707239A/zh
Application granted granted Critical
Publication of CN113707239B publication Critical patent/CN113707239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于计算机辅助药物设计技术领域,特别是涉及一种基于药物化学转化规则的先导化合物优化方法。所述方法包括:获取待分析靶点的历史实验数据,根据历史实验数据通过QSAR‑assisted‑MMPA方法获得转换库;获取待改造化合物结构,将转换库的转换规则应用于待改造化合物结构,并根据预设的筛选方法获得最优分子。该方法通过扩增实验数据的转换,并通过循环设计、合成、生物测试的优化化合物结构构成,具有可行性和可靠性,可获得多目标优化的具有期望化学、物理或结构特性的化合物。

Description

一种基于药物化学转化规则的先导化合物优化方法
技术领域
本发明属于计算机辅助药物设计技术领域,特别是涉及一种基于药物化学转化规则的先导化合物优化方法。
背景技术
为了提高药物发现的成功率,加快药物研发的进程,计算机设计方法为分子药物设计提供决策支持,被广泛使用。
现有技术中,采用计算机方法进行药物设计的方法主要有两种:(1)从头设计方法,该方法通过计算生成新分子,接着利用虚拟筛选程序对所产生的新化合物进行筛选以获得符合候选化合物,然而鉴于估计的类药物分子(1023-1060)的空间巨大,在这个空间进行完整的搜索或者枚举在计算上是不可行的。(2)自动应用药物化学“转换规则”以生成新的化合物结构的方法。该方法以初始的“亲本”结构作为输入,并通过基于以往药物化学经验的转换来生成“子”结构。与单个药物化学家相比,计算机可以存储和应用更多的规则,并且可以从分子间转换的历史示例中“学习”。Hartenfeller等人开发了模拟药物设计软件(DOGS),它可以根据已知的化学反应生成分子结构,用于实际合成。根据反应库搜索结构的反应位点,并将在反应库中搜索到的具有子结构的反应应用于反应位点,生成新分子。然而,在应用转换规则优化分子的过程中,很少有可用的预定义转换规则库,通常依靠药物化学家来定义或者随机生成。
发明内容
针对上述问题,本申请基于匹配分子对技术,系统地提取和总结药物化学数据库中转换,并将其应用于分子设计中,获得一种针对特定生物靶标、能够实现多目标优化,且可在小数据库上实行的先导化合物优化方法。
基于上述目的,本发明提供了一种基于药物化学转化规则的先导化合物优化方法,所述方法具体包括:
获取待分析靶点的历史实验数据,所述历史实验数据包括待分析靶点的多个活性化合物及其结构参数、活性数据和水溶性数据,以及非活性数据集;
根据所述历史实验数据构建QSAR预测模型,并采用所述QSAR预测模型预测数据库中的新分子,获取新分子对应的随机标准偏差;
根据所述随机标准偏差进行排序,筛选出预测准确分子,并获取所述预测准确分子的活性数据和水溶性数据,即为预测数据;
根据所述预测数据和所述历史实验数据,采用匹配分子对分析生成转换库;
获取待改造化合物结构,将所述转换库中的转换规则应用于待改造化合物结构,获得多个改造分子,并根据预设的筛选方法获得最优分子。
进一步的,所述QSAR预测模型包括:
基于随机森林算法并根据所述待分析靶点活性数据和水溶性数据构建的待分析靶点第一活性数据回归模型和第一水溶性数据回归模型。
进一步的,所述根据所述预测数据和所述历史实验数据,采用匹配分子对分析生成转换库以及对应的药物化学规则步骤具体包括:
设置初步转换规则,并采用Wilcoxon符号秩检验评估活性数据和水溶性值,经统计检验后获取转换库;所述转换以SMARTS格式进行保存,SMART是表示转换的新性文本字符串。
进一步的,所述初步转换规则为转换部分不能超过10个原子,化合物环外单键的碎片化仅允许单、双、三重切割。
进一步的,所述预设的筛选方法具体包括:
将所述多个改造分子进行类药性、毒性和可合成性筛选,获得多个第一筛选改造分子;
基于预设的分类模型、回归模型、重打分分类模型对所述第一筛选改造分子依次进行类型选择、活性和水溶性分析筛选、与待分析靶点结合情况分析筛选,获得多个第二筛选改造分子;
将所述多个第二筛选改造分子进行骨架分析获得筛选骨架,并以所述筛选骨架作为下一轮迭代筛选的待改造分子进行筛选直到获得最优分子。
进一步的,将所述多个改造分子进行类药性、毒性和可合成性筛选步骤具体包括:
保留复合Lipinski规则的化合物的化合物,去除含有毒性和不良基团的化合物;根据分子子结构和物化性质计算分子的可合成性得分,去除得分高于5分的化合物;根据分子预测性质和目标性质优化范围计算分子的综合得分,去除总得分高于3的化合物。
进一步的,所述预设的分类模型、回归模型、重打分分类模型具体为:
所述预设的分类模型和回归模型为基于XGBoost机械学习算法,应用MOE2D描述符作为分子表征,并根据所述待分析靶点的历史实验数据构建的待分析靶点分类模型、第二活性数据回归模型和第二水溶性数据回归模型;
所述重打分分类模型为基于XGBoost机器学习算法,根据历史实验数据中的活性数据集和非活性数据集构建的重打分分类模型。
有益效果:
本发明基于收集的待分析靶点的活性化合物的活性数据和水溶性数据,采用QSAR-assisted-MMPA方法扩增转换,并评估转换的统计学意义,筛选出能够增加水溶性且提高活性的转换组成转换规则库,该过程生成的转换库对优化先导化合物具有广泛的适用性,并将产生多样的化合物;转换库转换被分为九个大类:末端官能团的添加,末端官能团的移除,末端官能团的交换,接头处官能团的添加,接头处官能团的交换,接头处官能团的移除,环的添加,环的修改和环的移除。将所述转换规则应用至先导化合物的优化过程,考虑了先导化合物的可合成性、类药性,同时进行活性、水溶性以及与靶点结合模型的分析,通过循环设计、合成、生物测试的优化化合物结构构成,获得最优分子。该方法具有可行性和可靠性,可获得多目标优化的具有期望化学、物理或结构特性的化合物。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于药物化学转化规则的先导化合物优化方法的流程图;
图2为本发明实施例提供的针对PARP1靶点的基于药物化学转换的优化先导化合物优化方法流程图;
图3为本发明实施例提供的转换规则实例以及其SMARTS表达;
图4为本发明实施例提供的类Olaparib化合物优化过程、候选化合物与Olaparib的主成分分析图和pre(logS)和pre(pKi)散点图;
图5为本发明实施例提供的以2,3-二氮杂萘酮为初始化合物得到的50个候选化合物的预测靶点谱;
图6为本发明实施例提供的类Niraparib化合物优化过程、候选化合物与Olaparib的主成分分析图和pre(logS)和pre(pKi)散点图;
图7为本发明实施例提供的以吲唑为初始化合物得到的59个候选化合物和Niraparib的预测靶点谱;
图8为本发明实施例提供的喹唑啉酮化合物为初始化合物优化过程;
图9为已上市的4个PARP1抑制剂结构;
图10为本发明实施例提供的候选化合物与PARP1抑制剂的主成分分析图和pre(logS)和pre(pKi)散点图;
图11为本发明实施例提供的以喹唑啉酮为初始化合物得到的61个候选化合物的预测靶点谱;
图12为本发明实施例提供的N4、N39、N27、N22、N41与PARP1预测的3D结合模式示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,在本发明实施例中,提出了一种基于药物化学转换的优化先导化合物方法的流程图,以PARP1靶点为例,如图2所示的流程图。
步骤S101,获取待分析靶点的历史实验数据,所述历史实验数据包括待分析靶点的多个活性化合物及其结构参数、活性数据和水溶性数据,以及非活性数据集。
在本发明实施例中,共收集了3个数据集,(1)从ChEMBL14(版本20)数据库中收集PARP1靶点下的活性化合物。为了收集高质量的数据集,考虑了在最高置信水平(ChEMBL置信分数9)下对PARP1靶点有效的概念验证研究化合物,并具有直接结合相互作用(ChEMBL关系类型D)和Ki,IC50或Kd值作为效价测量指标。对于PARP1,最终收集2372分子。(2)从OCHEM数据库中收集了logS数据,经过数据预处理得到5020个数据。(3)另外,从DUD-E数据库中,收集4000个诱饵分子作为重打分模型的负集。针对于所有分子,使用MOE软件的“wash”模块进行清洗,对结构进行标准化,添加氢原子,去除盐离子。对于PARP1数据,根据活性值将2372个数据分为高活性集和低活性集,其中活性值≤10nM的1323个化合物(标签为:1)定义为高活性数据集,剩余活性值>10nM的1049个化学(标签为:0)定义为低活性集。
步骤S102,根据所述历史实验数据构建QSAR预测模型,并采用所述QSAR预测模型预测数据库中的新分子,获取新分子对应的随机标准偏差。
在本发明实施例中,采用QSAR-assisted-MMPA方法扩增转换,并评估这些转换的统计学意义,选出会增加水溶性并提高活性的转换组成转换规则库。由于PARP1活性数据和logS数据量不足,可供提取的转换规则有限,先进行数据扩增。基于随机森林算法,根据获得的PARP1历史实验数据构建第一活性数据回归模型(第一PARP1活性回归模型)和第一水溶性数据回归模型(第一logS回归模型),并采用上述模型预测CHEMBL数据库中的新分子,所述新分子为除历史实验数据中活性化合物外的其他分子,并获取新分子的随机标准偏差RF_var。
步骤S103,根据所述随机标准偏差进行排序,筛选出预测准确分子,并获取所述预测准确分子的活性数据和水溶性数据,即为预测数据。
在本发明实施例中,所述基于随机森林模型的随机标准偏差是评估预测准确性的一个指标,RF_var越小则说明模型之间的差异越小,预测就越准确,将所获得的新分子的随机标准偏差进行排序,筛选出RF_var小于0.3的预测准确分子,并根据上述预测模型预测预测准确分子的活性数据和水溶性数据,即为预测数据,在本发明中筛选出了44218个预测准确的PARP活性数据和46549个logS数据。
步骤S104,根据所述预测数据和所述历史实验数据,采用匹配分子对分析生成转换库。
在本发明实施例中,将预测数据和实验数据进行整合,执行MMPA(MatchedMolecular PairAnalysis)生成转换库,MMPA过程是基于Hussain and Rea算法[Hussain,J.and Rea,C.(2010)Computationally efficient algorithm to identify matchedmolecular pairs(MMPs)in large data sets.J.Chem.Inf.Model.50,339-348]实现的。在识别MMP(Matched Molecular Pair)时,设置转换部分不能超过10个原子,化合物环外单键的碎片化仅允许单、双、三重切割。接着,使用Wilcoxon符号秩检验来评估所得的转换是否可以显著提高或降低PARP1的Ki值和logS,其中仅保留具有10对以上MMP的转换,以p=0.01的置信水平进行统计检验。通过统计检验后,选出会增强PARP1的Ki值和logS值的转换规则,构成转换数据库。这些转换将系统地应用于输入的结构优化先导化合物的活性和水溶性。所有的转换以SMARTS格式进行保存,SMART是表示转换的新性文本字符串。转换规则是由两个分子片段组成,转换规则实例以及其SMARTS表达如图3所示。应用该转换规则时,它将输入的分子结构(SMILES代码)转换为新结构(新SMILES代码)。在本发明中,使用KNIME分析平台(版本3.7.1)上的RDKit节点和建模相关节点来构建整个QSAR-assisted-MMPA流程。所述转换库转换被分为九个大类:末端官能团的添加,末端官能团的移除,末端官能团的交换,接头处官能团的添加,接头处官能团的交换,接头处官能团的移除,环的添加,环的修改和环的移除。
步骤S105,获取待改造化合物结构,将所述转换库中的转换规则应用于待改造化合物结构,获得多个改造分子,并根据预设的筛选方法获得最优分子。
在本发明实施例中,将待改造化合物输入后,将转换库中的转换规则应用于输入的分子,获得多个改造分子,基于InChikey去重;通过预设的筛选方法进行筛选获取最优分子,该筛选方法包括:
1)保留符合Lipinski规则的化合物,该规则包括:logP<5,MW<500,HBA<5,HBD<10和NRB<10;2)使用警报子结构去除含有毒性和不良基团的化合物;3)根据分子子结构和物化性质,应用Ertl和Ansgar方法[Ertl,P.and Schuffenhauer,A.(2009)Estimation ofsynthetic accessibility score of drug-like molecules based on molecularcomplexity and fragment contributions.JCheminform 1,8]计算分子的可合成性得分,去除得分高于5的化合物;4)去除可能为混乱化合物的分子;5)计算分子的综合得分Score=0.4*NFH+0.6*Ntoxicity,其中NFH是指含有的泛干扰化合物子结构[Baell,J.B.andHolloway,G.A.(2010)New substructure filters for removal of pan assayinterference compounds(PAINS)from screening libraries and for their exclusionin bioassays.J.Med.Chem.53,2719-2740]的数量,Ntoxicity指含有的ToxAlerts毒性子结构[Sushko,I.et al.(2012)ToxAlerts:A Web Server of Structural Alerts forToxic Chemicals and Compounds with Potential AdverseReactions.J.Chem.Inf.Model.52,2310-2316]的数量;去除总的得分高于3。上述筛选步骤基于Scopy包实现,主要进行类药性、毒性和可合成性筛选,排出一些潜在失败倾向的化合物,为后续的合成和筛选节约资源。
在本发明实施例中,为了鉴定高质量的化合物,基于XGBoost机器学习算法,应用MOE2D描述符作为分子表征构建第二PARP1回归模型,PARP1分类模型,第二logS回归模型,并使用网格搜索和五折交互验证优化XGBoost模型的主要超参数。学习率(Eta,从0.1到0.3,interval=0.1),树的最大深度(maximum depth,从1到8,interval=1)以及在增强集成中训练模型数(boosting round,从500到2000,interval=100);基于PARP1活性数据和XGBoost算法构建分类模型,通过五折交互验证评估得到ACC为0.817,AUC为0.893,说明该PARP1分类模型能准确的识别潜在的PARP1抑制剂。基于PARP1的Ki值数据和XGBoost算法构建第二PARP1回归模型,通过五折交互验证评估说明构建了一个可靠的PARP1回归模型(Q2=0.767,RMSE=0.416)。基于logS数据构建的回归模型也获得不错的精度(Q2=0.977,RMSE=0.331)。为了进一步估计新化合物的结合亲和力,还基于XGBoost机器学习算法构建重打分(Scoring Functions,SF)分类模型。以PARP1数据中含有Ki值的数据为活性数据集(label=1),以DUD-E中收集的4000个数据为非活性数据集(label=0)来构建此模型。在SFs模型中,使用软件中的Maestro模块进行分子对接,产生的能量得分项为特征。使用的PARP1晶体复合为PDB数据库中的,其PDBID为416S。对重打分模型进行五折交互验证,得到模型的精度为ACC=0.892,AUC=0.879。
在本发明实施例中,将进行类药性、毒性和可合成性筛选获得的分子再进行筛选:6)基于PARP1分类模型对预测活性化合物,选择被模型预测为抑制剂的分子;7)使用第二PARP1回归模型,第二logS回归模型预测分子的PARP活性和水溶性,选出其中pki值和logS值较优的分子;8)基于建立的SF模型预测分子与蛋PARP1靶点的结合,选择被SF模型预测为结合的分子;9)对筛选出的分子,进行Murcko骨架分析,在每一个骨架下随机选出一个分子作为下一次迭代的先导分子。重复上述筛选步骤,直到获得复合初始设定条件的最优分子。
本发明基于收集的待分析靶点的活性化合物的活性数据和水溶性数据,采用QSAR-assisted-MMPA方法扩增转换,并评估转换的统计学意义,筛选出能够增加水溶性且提高活性的转换组成转换规则库,该过程生成的转换库对优化先导化合物具有广泛的适用性,并将产生多样的化合物,将所述转换规则应用至先导化合物的优化过程,考虑了先导化合物的可合成性、类药性,同时进行活性、水溶性以及与靶点结合模型的分析,通过循环设计、合成、生物测试的优化化合物结构构成,获得最优分子。该方法具有可行性和可靠性,可获得多目标优化的具有期望化学、物理或结构特性的化合物。
在本发明实施例中,通过QSAR-assisted-MMPA过程,以及Wilcoxon符号秩检验,得到了7018个PARP1相关的转换规则,15451对logS相关的转换规则。其中会增加PARP1亲和力的有1229个,提高化合物logS的有9840个,去除重复的405转换对后得到10664个独特的转换被添加到转换库中。转换库转换被分为九个大类:末端官能团的添加,末端官能团的移除,末端官能团的交换,接头处官能团的添加,接头处官能团的交换,接头处官能团的移除,环的添加,环的修改和环的移除。表1中显示了各种转换的分布,表2中显示了每种转换的实例。这些转换不一定对应于特定的化学反应或合成路线,而是旨在描述药物化学家考虑的分子改造。从表1的这些统计数据表明,这个转换库对优化先导化合物具有广泛的适用性,并将产生多样的化合物。
表1各类转换的分布
表2转换规则的例子
为了验证药物设计方法的有效性和可行性,进行了Olaparib验证、Niraparib验证。
Olaparib验证:
在本发明实施例中,以2,3-二氮杂萘酮为初始结构,评估是否该方法能设计出Olaparib药物分子或者Olaparib的类药分子。在第一个例子中,化合物优化的目标简单的定义为生成Olaparib结构。然后,以2,3-二氮杂萘酮为起始结构,通过一系列结构转换生成新的化学结构。随后,对每一代产生的化合物进行筛选,使用Socpy包对评估化合物进行了类药性,毒性和可合成性。并使用PARP1分类模型筛选出与有PARP1潜在活性的分子,使用PRP1回归模型预测化合物的pKi值,选出pKi值最大的前200个化合物。并使用logS预测化合物的水溶性,选出logS大于-5的化合物。最后,使用SF模型,选出被预测为与蛋白结合的化合物,对这些化合物进行骨架分析,每个骨架下随机选择结构作为下一次迭代的化合物。该过程不断循环,直到发现有接近Olaparib结构或者没有实现进一步的改进则停止。
最终,迭代三次后,得到了50个化合物,其中出现了类Olaparib化合物(化合物4),且化合物4在50个化合物中有最高的pre(PKi)值。化合物4的优化路径如图4-a所示。由化合物1为初始结构,初始的pre(PKi)为6.126。通过第一次迭代,添加苯基后得到pre(PKi)为6.858。第二次迭代,添加哌嗪,使得pre(PKi)提高了一个数量级,成为低活性化合物。第三次迭代,添加环丙基羰基,得到Olaparib的类似物,pre(PKi)为8.706。最后一次迭代中得到的50个化合物的主成分分析图和活性水溶性散点图如图4-b,4-c所示。主成分分析图显示,候选化合物与Olaparib属于同一个化学空间。图4-c显示,得出的50个候选化合物的pre(PKi)大于0.8,并有44个化合物的pre(logS)值优于Olaparib。
为了评估上述候选化合物的是否命中PARP1靶点,使用TargetNet工具对这些候选化合物的靶标进行预测。TargetNet是一个开放式Web服务器,对于单个分子,可以给出预测靶点概率值。对于输入的多个分子,对多个分子预测的靶点预测概率值进行排序,排序越靠前的靶点,预测正确的机率越大。基于2,3-二氮杂萘酮生成的50个候选化合物的靶标预测的结果如图5所示,PARP1(Uniprot ID:P09874)排在第一位,50个候选化合物有44个分子可能命中PARP1(P=1),另有3个分子命中概率P>0.9。
综上所述,可以通过以Olaparib的核心骨架2,3-二氮杂萘酮为初始结构,使用本发明的优化结构成功的生成了Olaparib的类药性分子(化合物4),从而证明使用该优化程序可以成功的生成候选药物。
Niraparib验证:
在本发明实施例中,以吲唑为初始分子,评估是否该方法能设计出Niraparib药物分子。根据“材料与方法”部分提到的程序,第一次迭代,以吲唑为起点,生成了1668个原始结构,选择出来10最优的分子作为下一次迭代的初始分子。在第二次迭代,生成36388个分子,通过筛选排序程序,从中选出10个分子进行第三次迭代。第三次迭代,生成了50660个分子,经过筛选排序程序,最终获得了60个候选化合物,其中包括Niraparib(化合物8)。Niraparib的生成路线如图6-a所示,以化合物5为起点,其pre(pKi)为6.60,pre(logS)为-1.62,通过添加苯环使得pre(pKi)提高了0.82。在化合物6中,引入哌啶基团没有改变分子的活性及水溶性。最后,在第三次迭代中,在吲唑结构上,引入了酰胺基团,使分子的pre(pKi)提高到了8.37。通过以上分析说明,该方法可以从简单的骨架开始,经过基于经验的转换改造后,生成符合人们期望的化合物。图6-b为Niraparib与其他59个候选化合物的主成分分析图,该图反映该方法生成的候选化合物与Niraparib处于同一化学空间,并能说明该方法生成的化合物属于药物的化学空间。图6-c为59个候选化合物与Niraparib的pre(PKi)值及pre(logS)值的散点图,其中部分化合物的预测活性和水溶性均优于Niraparib。
图7为TargetNet对60个化合物的靶点预测结果。从图中得出,PARP1排在第16位,推测是由于吲唑是药物发现中的常见骨架,在许多药物结构中都含有吲唑结构。在59个候选化合物中,15个分子可能命中PARP1(P>0.9)。
以Olaparib和Niraparib结构生成的实例,说明该药物设计方法确实可以基于以往的经验知识对现有的骨架进行优化和改造,从而生成活性有潜力的候选化合物。
PARP1新型抑制剂的开发
在本发明实施例中,采用喹唑啉酮为PARP1抑制剂设计的初始结构,图8显示了PARP1抑制剂设计的部分结果,这些结果是通过本发明中的优化算法获得的。图中展示了每一次迭代选出的最优化合物。从化合物N-1经过N-3和N-7最后到化合物N-11,分别通过添加咪唑基,苯环和羟基来设计出新分子。在本次设计实验中,利用被扩增后的转换库设计了72633个分子,包含第三次迭代选出的61个候选分子。对61个候选化合物,和PARP数据集(3321)进行碳骨架和Murcko骨架分析。61个候选化合物中包含29个碳骨架,31个murcko骨架且这些骨架都不存在于PARP1数据集中。如前所述,可以通过简单的分子基本核心结构成功设计出具有新颖骨架的化合物。
图9为四个已上市的药物结构。图10-a为61个候选化合物与四个上市药物的主成分分析图,很明显设计出的61个候选化合物处于PARP1上市药物的同一化学空间内。图10-b为61个候选化合物PARP1的四个上市药物的pre(logS)和pre(pKi)散点图,其中有43个候选化合物的预测活性高于Niraparib,21个候选药物的水溶性优于Niraparib。同时也出现了一个候选化合物预测活性与Talazoparib处于同一级别,且水溶性优于Talazoparib。此外,为了评估候选化合物是否能命中PARP1靶点,使用TargetNet对61个候选化合物进行预测。图11为61个候选化合物的靶点预测结果,PARP1位于第5位,有29个分子可能命中PARP1(P>0.9)。通过以上分析说明,基于以往的经验知识设计出的新分子,具有潜在的活性和良好的水溶性且命中PARP1靶点,值得进一步研究。
为了深入了解候选化合物的结合机制,详细分析了其中5个化合物于PARP1的结合姿势。在此步骤中,使用MOE软件进行对接。蛋白晶体结构使用的是来自PDB数据库中的6VKK,其来自于人源,分辨率为与Rucaparib形成晶体复合物。通过MOE对蛋白和小分子进行预处理,在半柔性协议下,使用GBVI/WSA dG打分函数进行对接姿势的评估并输出得分最高的姿势。剩余的其他参数保留为默认值。表3列出了5个候选化合物的活性、水溶性和MOE软件对接得分值。图12为5个候选化合物在PARP1的结合姿势。
表3 5个候选化合物结构、活性、水溶性以及MOE对接得分值
结合模型表明,5个候选化合物有相似取向和作用残基。N4(pre(pKi)=0.8911)的吗啉环中的氧可以与PARP1的关键氨基酸Ser904和Gly863形成氢键作用(图11-A和11-B),N39(pre(pKi)=8.53)的喹唑啉酮上的羰基与His862、Gly863、Ser904形成氢键作用,二氢咪唑上的氨基与Gly888形成氢键相互作用,与Glu988形成溶剂化相互作用。N27(pre(pKi)=8.69)的喹唑啉酮中的芳香环和嘧啶环与Tyr907形成π-π相互作用和π-氢相互作用。吗啉环中的氧可以关键残基Ser904和Gly863形成氢键相互作用。N22(pre(pKi)=8.69)的喹唑啉酮上的中一个羰基分别与Ser904、Gly863、His862残基形成氢键相互作用,另一个羰基与Lys903形成氢键。咪唑环分别与Tyr889,Tyr896残基形成氢键相互作用与π-π相互作用。N41(pre(pKi)=8.51)的吗啉环上的氧分别和氨基酸Gly863与Ser904形成氢键。在已知的PARP1抑制剂中也找到了类似的结合,如Rucaparib也和蛋白质中的Ser904、Gly863、Tyr907存在氢键相互作用。
通过结合模式的详细分析,发现这5个候选化合物的结合模式与上市的药物分子是相似的。对此,总结了这些主要作用位点:化合物的芳香环中的羰基和支链环上的氧原子能够与高频残基Ser904、Gly863、Tyr907形成氢键,而且这样可能是影响活性的关键基团。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (2)

1.一种基于药物化学转化规则的先导化合物优化方法,其特征在于,所述方法具体包括:
获取待分析靶点的历史实验数据,所述历史实验数据包括待分析靶点的多个活性化合物及其结构参数、活性数据和水溶性数据,以及非活性数据集;
根据所述历史实验数据构建QSAR预测模型,并采用所述QSAR预测模型预测数据库中的新分子,获取新分子对应的随机标准偏差;
根据所述随机标准偏差进行排序,筛选出预测准确分子,并获取所述预测准确分子的活性数据和水溶性数据,即为预测数据;
根据所述预测数据和所述历史实验数据,采用匹配分子对分析生成转换库;
获取待改造化合物结构,将所述转换库的转换规则应用于待改造化合物结构,获得多个改造分子,并根据预设的筛选方法获得最优分子;
所述根据所述预测数据和所述历史实验数据,采用匹配分子对分析生成转换库以及对应的药物化学规则步骤具体包括:
设置初步转换规则,并采用Wilcoxon符号秩检验评估活性数据和水溶性值,经统计检验后获取转换库;所述转换以SMARTS格式进行保存,SMART是表示转换的新性文本字符串;所述初步转换规则为转换部分不能超过10个原子,化合物环外单键的碎片化仅允许单、双、三重切割;
所述预设的筛选方法具体包括:
将所述多个改造分子进行类药性、毒性和可合成性筛选,获得多个第一筛选改造分子;
基于预设的分类模型、回归模型和重打分分类模型对所述第一筛选改造分子依次进行类型选择、活性和水溶性分析筛选、与待分析靶点结合情况分析筛选,获得多个第二筛选改造分子;
将所述多个第二筛选改造分子进行骨架分析获得筛选骨架,并以所述筛选骨架作为下一轮迭代筛选的待改造分子进行筛选直到获得最优分子;
将所述多个改造分子进行类药性、毒性和可合成性筛选步骤具体包括:
保留复合Lipinski规则的化合物,去除含有毒性和不良基团的化合物;根据分子子结构和物化性质计算分子的可合成性得分,去除得分高于5分的化合物;根据分子预测性质和目标性质优化范围计算分子的综合得分,去除总得分高于3的化合物;
所述预设的分类模型、回归模型和重打分分类模型具体为:
所述预设的分类模型和回归模型为基于XGBoost机械学习算法,应用MOE2D描述符作为分子表征,并根据所述待分析靶点的历史实验数据构建的待分析靶点分类模型、第二活性数据回归模型和第二水溶性数据回归模型;
所述重打分分类模型为基于XGBoost机器学习算法,根据历史实验数据中的活性数据集和非活性数据集构建的重打分分类模型。
2.根据权利要求1所述的基于药物化学转化规则的先导化合物优化方法,其特征在于,其特征在于,所述QSAR预测模型包括:
基于随机森林算法并根据所述待分析靶点活性数据和水溶性数据构建的待分析靶点第一活性数据回归模型和第一水溶性数据回归模型。
CN202110992191.4A 2021-08-27 2021-08-27 一种基于药物化学转化规则的先导化合物优化方法 Active CN113707239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110992191.4A CN113707239B (zh) 2021-08-27 2021-08-27 一种基于药物化学转化规则的先导化合物优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110992191.4A CN113707239B (zh) 2021-08-27 2021-08-27 一种基于药物化学转化规则的先导化合物优化方法

Publications (2)

Publication Number Publication Date
CN113707239A CN113707239A (zh) 2021-11-26
CN113707239B true CN113707239B (zh) 2024-03-12

Family

ID=78655612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110992191.4A Active CN113707239B (zh) 2021-08-27 2021-08-27 一种基于药物化学转化规则的先导化合物优化方法

Country Status (1)

Country Link
CN (1) CN113707239B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123148A1 (zh) * 2021-12-30 2023-07-06 深圳晶泰科技有限公司 化合物分子成药性改良方法、装置、设备及存储介质
CN117373564B (zh) * 2023-12-08 2024-03-01 北京百奥纳芯生物科技有限公司 一种蛋白靶标的结合配体的生成方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341390A (zh) * 2020-02-18 2020-06-26 中南大学 定量构效关系辅助匹配分子对分析方法
CN112259175A (zh) * 2020-08-17 2021-01-22 杭州市第一人民医院 一种irak1激酶抑制剂的虚拟筛选方法及药物先导化合物

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI611053B (zh) * 2012-02-27 2018-01-11 曾宇鳳 為先導藥物最適化之以結構為基礎的片段遷越及合成可行性之改良

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341390A (zh) * 2020-02-18 2020-06-26 中南大学 定量构效关系辅助匹配分子对分析方法
CN112259175A (zh) * 2020-08-17 2021-01-22 杭州市第一人民医院 一种irak1激酶抑制剂的虚拟筛选方法及药物先导化合物

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QSAR-assisted-MMPA to expand chemical transformation space for lead optimization;Li Fu等;《Briefings in Bioinformatics》;20210109;第22卷(第5期);第1–13页 *
预测化学品PPARγ 活性的机器学习QSAR 模型及应用域表征;王中钰等;《人工智能与人类健康论文摘要集》;20210721;第109-110页 *

Also Published As

Publication number Publication date
CN113707239A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Balcells et al. tmQM dataset—quantum geometries and properties of 86k transition metal complexes
Li et al. Machine‐learning scoring functions for structure‐based drug lead optimization
Karimi et al. De novo protein design for novel folds using guided conditional wasserstein generative adversarial networks
Allen et al. Computational prediction of electron ionization mass spectra to assist in GC/MS compound identification
Basith et al. Machine intelligence in peptide therapeutics: A next‐generation tool for rapid disease screening
CN113707239B (zh) 一种基于药物化学转化规则的先导化合物优化方法
Sidky et al. High-resolution Markov state models for the dynamics of Trp-cage miniprotein constructed over slow folding modes identified by state-free reversible VAMPnets
Bradshaw et al. Barking up the right tree: an approach to search over molecule synthesis dags
Ashkenasy et al. Design of a directed molecular network
Martin Diverse viewpoints on computational aspects of molecular diversity
Deng et al. How kinetics within the unfolded state affects protein folding: An analysis based on Markov state models and an ultra-long MD trajectory
Carrio et al. Applicability domain analysis (ADAN): a robust method for assessing the reliability of drug property predictions
CN112652355B (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
Mizuguchi et al. Seeking significance in three-dimensional protein structure comparisons
Ismail et al. Graph-driven reaction discovery: Progress, challenges, and future opportunities
Ertl et al. IADE: a system for intelligent automatic design of bioisosteric analogs
Song et al. Identification of inhibitors of MMPS enzymes via a novel computational approach
Carissimo et al. Validation of community robustness
Nori et al. De novo PROTAC design using graph-based deep generative models
Flamm et al. Evolution of metabolic networks: a computational frame-work
D’Amore et al. Collaborative assessment of molecular geometries and energies from the Open Force Field
Yan et al. Sampling performance of multiple independent molecular dynamics simulations of an RNA aptamer
US7848890B2 (en) Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
JP2005503535A (ja) 分子相互作用ネットワークの予測方法
Marrero-Ponce et al. Novel 2D TOMOCOMD-CARDD molecular descriptors: atom-based stochastic and non-stochastic bilinear indices and their QSPR applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant