CN100362519C - 组合化学集中库设计与优化方法 - Google Patents

组合化学集中库设计与优化方法 Download PDF

Info

Publication number
CN100362519C
CN100362519C CNB2004100531026A CN200410053102A CN100362519C CN 100362519 C CN100362519 C CN 100362519C CN B2004100531026 A CNB2004100531026 A CN B2004100531026A CN 200410053102 A CN200410053102 A CN 200410053102A CN 100362519 C CN100362519 C CN 100362519C
Authority
CN
China
Prior art keywords
molecular
library
reaction
design
combinatorial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100531026A
Other languages
English (en)
Other versions
CN1725222A (zh
Inventor
罗小民
蒋华良
陈刚
沈建华
郑苏欣
张健
柳红
沈旭
陈凯先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Materia Medica of CAS
Original Assignee
Shanghai Institute of Materia Medica of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Materia Medica of CAS filed Critical Shanghai Institute of Materia Medica of CAS
Priority to CNB2004100531026A priority Critical patent/CN100362519C/zh
Publication of CN1725222A publication Critical patent/CN1725222A/zh
Application granted granted Critical
Publication of CN100362519C publication Critical patent/CN100362519C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种组合化学集中库设计与优化方法,是对一种虚拟组合化学集中库软件包的设计、建立与评价优化的方法。包括第一步以靶标为基础设计虚拟组合初步筛选库;第二步建立虚拟组合初步筛选库并对分子构象进行优化;第三步对虚拟组合初步筛选库进行评价及其优化。本发明采用遗传算法与组合化学方法相结合,可以用于基于大分子靶标三维结构的全新药物的设计和研究。对靶标具有比较高的亲和性,多样性和类药性。具有速度快、费用低、不耗费任何实验器材,完全通过计算模拟的方法来完成组合化学集中库的设计和优化。

Description

组合化学集中库设计与优化方法
技术领域
本发明涉及一种组合化学集中库的设计与优化方法,适用于对一种虚拟组合化学集中库软件包的设计、建立、评价和优化。
背景技术
药物发现是一个综合了多学科的、复杂的研究和探索过程,其主要步骤可以简要概括为从基因到蛋白质和蛋白质到先导化合物,再对先导化合物进行评估和优化这样一个循环反复,螺旋式上升的过程。在这个过程中,计算机早已经成为不可缺少的手段,分子模拟、组合化学、构效关系以及数据挖掘等领域都是计算机大显身手的地方。利用计算机采用各种可能的方法,搜寻和优化先导化合物,提高其理化指标和生物活性,已成为药物发现过程中的关键步骤之一。
组合化学(combinatorial chemistry,combichem)通过构建单元(building block)的组合与连接,平行、系统地合成大量具有分子多样性的化合物以形成组合化学库(combinatorial library)。它的目标是像搭积木一样合成大量的、各种各样的化合物,以满足现代药物研究对多样性化合物的需求。组合化学最早可追溯至60年代的肽固相合成技术,利用多肽合成(Merrifield)中一致的、可靠的反应条件和使用高分子聚合物固相载体,从而使产物与试剂非常容易分离。发明者因此获得了诺贝尔化学奖。80年代中期以后,这一技术迅速发展,不仅可用多种固相合成技术合成组合化学库,也可用液相合成技术合成组合库。从组合库的内容物来看,不仅有了肽库、肽衍生库、拟肽库、非天然肽库、非肽寡聚(oligomer)库(如核肽、寡脲、寡糖库等),也出现了有机小分子化学组合库,极大地丰富了现有化合物库。并为药物先导化合物的发现提供了大量的候选分子结构。目前,组合化学技术已经日益成熟,它主要包括组合库策略、达成目的的方法和设计原则;固相或液相合成方法;编码和空间分离方式;核心结构原则;质量保证和控制等问题。
在组合化学发展早期,组合库的构建多半是随机性的,也就是随机性地选取基本构件单元,经一系列合成后,得到含有大量化合物的库。由于这种构建库的方法没有目的性,在人力、物力和时间上都是极大的浪费。近几年来,人们开始采取构建定向组合库的方法,以增加得到具有所需生物活性先导物的几率。构建定向组合库时,就涉及到组合库的设计问题(参见在先技术<1>,Dolle RE,Comprehensive survey of combinatorial library synthesis:2000,JComb Chem.2001.3(6):477-517)。另一个问题是以前在设计组合化学库时没有充分利用靶标生物大分子的结构信息,对靶标分子的针对性不强,而是将发现先导化合物的希望寄托在组合化学库内在的分子多样性上。如果说通过组合化学寻找药物先导化合物是大海捞针的话,则通过盲目扩大组合化学库规模来寻找先导化合物,就象通过扩大搜寻的海域范围来寻找针一样,其难度和工作量可想而知。组合化学研究人员认识到这一问题,提出了集中库概念。它们是具有针对性的组合化学库,其规模小,由于其针对性强,通过集中库发现药物先导化合物的机会并不会减少。由此又产生了一个新问题,即如何有目的地设计集中库,特别是在靶标已明确的情况下。如果能充分利用生物大分子的三维结构信息,则可以有效地缩小组合化学库的规模,减少所需的人力和物力。
当前,以生物信息学为纽带,结合基因组学、组合化学和高通量筛选的模式已经成为新药研究和开发的通行模式。随着分子生物学的迅猛发展,越来越多的基因被克隆表达,许多药物作用的理想靶标蛋白(如病原微生物生命过程中起关键作用的酶)的晶体结构被测定或通过计算机辅助设计搭建了模型,并确定了底物的结合位点,成为药物定向开发的基础。现在,组合化学已遍及从先导物发现到靶标的确认,从先导物优化到增强联合化合物集的药物研究与开发(R&D)的各个方面。根据结合位点活性口袋的性质进行化合物数据库搜索或从头设计新的先导化合物,通过组合化学的方法迅速生成大量的化合物,并结合高通量筛选技术,快速筛选出高活性的化合物用于药物开发。从20世纪90年代前半期起,随着计算机性能的高速发展,计算机辅助组合化学库设计的工作逐渐成为药物研究的热点,主要集中于分子的多样性或差异性方面。其目的是在保持组合化学库的分子多样性的前提下,尽量缩小库的规模,以减少化学合成和药理测试的工作。在90年代后期,许多研究者提出了基于结构的药物设计与组合化学相结合的算法,尝试在进行组合化学库的设计中利用靶标生物大分子的三维结构信息。其中有些还进行了相应的化学合成和药理测试实验,取得了较好的结果。1999年在一个含500个化合物的优化库中确证了一个临床化合物,它是Agouron制药公司在基于结构鼻病毒3C蛋白酶抑制剂研究中发现的。人类基因组测序工作已基本完成,为药物研究提供了大量的新分子靶标,因而基于结构的药物设计与组合化学相结合的路线已经成为一个有效的发现药物的途径。
分析组合库的多样性是组合化学中的重要过程。组合化学可用不同的构建单元在同一时间内合成大量的结构多样的化合物库,正是组合化学库的分子结构多样性为“大海捞针”式的高通量筛选(High Throughput Screening,HTS)提供丰富的源泉和成功的基石。有人(Weininger)曾估计有10180个化合物具有类药性的分子结构。既使可能正确的数字是1050(这个数字包括了许多专利涉及的化合物),也是一个令人吃惊的巨大数目,更不可能去合成、筛选数目如此巨大的化合物。因此,仅仅强调分子多样性是没有必要的,具有一定目标的多样性设计才具有真正的价值。
评价组合化学库分子多样性的目的是降低成本,提高发现新的活性化合物的几率。希望借助计算机工具来选择购买或合成的化合物。提高活性筛选中化合物库的分子多样性。同时也希望能通过计算机工具设计针对特定靶标三维结构的多样性化合物库。由此得到满足安全、高效、经济并且有活性的化合物。
目前已经有许多评价组合化学库分子多样性的商业程序(软件包)(参阅在先技术<2>,Matter H,Potter T,Comparing 3D Pharmacophore Triplets and 2D Fingerprints forSelecting Diverse Compound Subsets,J.Chem.Inf.Comput.Sci.1999,39:1211-1225;在先技术<3>,Jorgensen AM,Pedersen JT,Structural Diversity of Small MoleculeLibraries,J.Chem.Inf.Comput.Sci.,2001,41,:338-345;在先技术<4>,Flower DR,On the Properties of Bit String-Based Measures of Chemicai Similarity,J.Chem.Inf.Comput.Sci.1998,38:379-386)。
传统的多样性软件工具使用户能从适当数目的群体中选择结构多样性子集。如有人(由Robert Pearlman教授领导的小组)开发的多样性处理软件系统(DiverseSolutions)不仅致力于这个问题,还很好地适用于多样性相关问题领域。此软件系统的设计为补充管理系统(Tripos diversity Manager)产品的其它单元。它用于采用两种不同算法解决多样性相关问题:基于距离算法理想地适用于简单的多样性子集选择;基于单元算法包含了将一个多维化学空间分成被称为“单元”多维体。此软件系统提供了表达化学空间的两种不同方法:基于来自指纹表达方式或其它资源的“指纹”的高维表达方式。低维表达方式是基于由此软件系统或来自其它资源生成的分子描述符。
现在分子多样性研究主要有两大目的和内容:一是分子多样性或相似性的量化;二是选择具有最大多样性或相似性的化合物。在计算分子多样性的过程中,最关键的步骤是分子结构的描述方法和多样性计算方法的选择和确定。
分子结构描述方法:
分子的结构决定了它的性质,所以不管是所谓的化学多样性还是分子多样性在本质上都由分子结构决定。为了在合理的时间内计算一个含有106以上的化合物组合库的多样性,对每个结构描述符的计算时间要尽可能少。但是,因为化学结构多样性计算没有统一定义,会因具体情况不同而有所改变。因此,应该采用3种以上的结构表述因子来描述结构多样性。在先技术中,介绍了许多种结构表述因子,如二维结构描述因子、特征树、对比图、二维药效团自动相关矢量、最大化普通亚结构(MCS)等结构描述因子。大部分分子多样性的计算方法从信息来源上都只考虑分子的二维结构信息。但是一旦考虑三维性质,就必须面对构象(conformers)、互变(异构)体(tautomer)、离子化状态(ionization)之间的复杂关系。有人(Brown和Martin)分别采用了多种2D的描述符和3D的描述符来进行分子相似性和多样性分析,最后结果认为2D比3D描述符更适合区别活性与非活性化合物。另外,大量的结构和理化性质描述符可以应用到多样性计算中,2D结构描述符相比之下更有效。当然,一些计算较复杂的3D描述符,例如位点描述符(PPP)、场描述符(Cramer),在较大的计算代价下也显示了较好的效果。
二维结构描述符包括分子结构描述法,受体识别描述法和分子拓扑描述法。
其中分子结构描述法主要包括四种方法:系统命名法(systematic nomenclature),片断编码法(fragmetic codes),例如结构编码法、混杂指纹法;线性表达法(line notation),连接表法(connect tables)。
结构编码法(structural keys)是从预先定义的分子碎片结构库中查找分子中分子碎片出现的频率,从而得出分子的结构描述方法。但这种方法在分子结构中不含预先定义的分子碎片时,编码没有意义。
混杂指纹法(hashed fingerprints)采用预先定义的分子路径长度的索引进行编码,每一种路径就是一个编码位(bit)。因此整个分子被描述成一串二进制的字符。
先导化合物的发现和优化一直是药物化学研究的重点和难点。近年来,生物学和其他相关高新技术取得了长足进步,产生了基于细胞和分子水平的高通量筛选技术,更使得新结构化合物的合成成了药物研究的瓶颈。组合化学是有机合成的重大突破。长期以来,化学家们一直是对化合物逐一进行合成、纯化和结构鉴定。然后进行生物活性的测定。但这种方法效率低,速度慢,使新药开发成本越来越高,周期越来越长。而组合化学可以利用有限的反应,同时合成大量的化合物。一个组合库可以包括从几十到几百万甚至上千万个化合物。组合化学为发现新的药物提供了高效可行的途径,已经成为新药研究中的重要平台。随着对先导化合物以及药物本质认识的发展,组合化学技术的局限性也越来越突出,这些局限性造成了利用组合化学来合成组合库,然后进行靶标筛选获得先导化合物的方法逐渐成为新药发现道路上的一个瓶颈。目前,组合化学技术主要的局限性主要体现在以下三点:
1.通过组合化学大量合成出来的化合物,极大地增加了供筛选所用的化合物数据库的数目。但是其对靶标分子的针对性不强,将发现先导化合物的希望寄托在组合化学库内在的分子多样性上。这种“大海捞针”式的运行模式显著的降低了从中提取先导化合物的比率,增加了先导化合物产生的周期。
2.由于组合化学一次产生的化合物数目极大,包含了很多的结构相关信息,信息量的增加直接导致对信息利用的严重不足,缺乏整合分析并利用信息进行连续改造的能力。
3.组合化学由于合成量的激增,费用成为一个巨大的负担,不利于当前药物产业在新药产生几率较低的整体环境中进行大规模实验。
近年来,组合集中库的出现和虚拟筛选的方法使组合化学扬长避短,成为一种更实用的药物设计方法。随着分子生物学和结构生物学的发展,蛋白质结构数据库中的受体生物大分子的三维结构越来越多。基于生物大分子的三维结构,可以用数据库搜寻或全新药物设计等方法设计新的先导化合物或对先导化合物进行结构改造,这些药物设计方法称为基于结构的药物设计方法(structure-based drug design,SBDD)。
组合化学与计算化学的紧密结合,使组合化学有了更强的生命力。组合化学已经成为化学、药物和材料科学研究中的一个热点。组合化学发展的一种趋势是和合理药物设计结合起来,在合成组合库之前,通过分子模拟和理论计算方法合理地设计虚拟化合物库,增加库中化合物的多样性和类药性,提高库的质量。目前研究的热点是根据受体生物分子结合部位的三维结构设计集中库,这将大大提高组合化学库的质量和筛选效率。目前还没有能完成针对药物发现的组合化学集中库设计与优化的集成软件包。不少商业软件中含有一些组合化学库模块,例如有(Cerius2中)组合化学库的设计模块,有(Sybyl软件中的)虚拟组合库生成模块(CombiLibMaker,Barnard ChemicalInformation-BCI),有分子多样性分析模块(Diversity Analysis Package、ChemicalDesign Ltd.-CDL和ChemDiverse、Cerius2的Diversity和Daylight),但它们都不具备完整的集中库设计与评估功能。
发明内容
本发明是针对上述在先技术中的问题,提供一种虚拟组合化学集中库的设计与优化方法,其主要目的是在给定受体大分子三维结构信息的基础上采用基于结构的药物设计方法进行虚拟组合初步筛选库的自动设计和评估。然后对虚拟组合化学库用分子对接(dock)、分子多样性、分子类药性、不良的药物动力学性质或不适宜的毒性反应(ADME/T)等方法进行评价,并应用遗传算法使各虚拟集中库不断优化,产生具有针对靶标的高亲和性,统计意义的高多样性和高类药性的组合化学集中库。药物化学家根据这个优化后化合物库中的化合物分子进行合成,可以极大的提高合成产生化合物中先导化合物的几率。另外也可以根据库中给出的信息,对化合物进行结构改造,是一种基于靶点结构的全新药物设计方法。这一切,都是凭借计算机强大的计算和合理的信息分析手段来实现。
本发明所采用的技术方案是:
本发明的虚拟组合化学集中库(virtual library,VL)是应用电子信息技术生成和贮存的组合库,它不是真正存在的组合化学库。但如果需要,可以用已知的化学反应和可以得到的构建单元来合成。一个理想的组合库应该包括各种各样的结构类型和分子特征的化合物,也就是说应使分子之间具有尽可能大的差异性。例如在药物设计中,组合库的设计中主要有两个问题,一是需要确定对特定的组合库哪些化学结构空间是有价值的;二是确定能高效地搜索这些化学空间的一系列分子。因此,本发明的设计与优化方法是:
<1>首先设计以靶标为基础的虚拟组合初步筛选库,包括:确定组合合成针对的靶标蛋白;设计组合成路线,挑选组合构建单元;再选定组合合成中的各基本构建单元的单元构件集合;
<2>第二步根据上述的设计,建立虚拟组合初步筛选库,包括:依据组合化学反应,从指定构造单元中读取指定的单元,构建相应的虚拟组合初步筛选库;然后对获得的虚拟组合初步筛选库中的分子构象进行优化;
<3>第三步对上述建立的虚拟组合初步筛选库进行评价及其优化,包括:首先建立模块结构的评价体系;然后采用遗传算法对虚拟组合初步筛选库进行优化。
本发明的虚拟组合化学集中库的软件包采用在多种平台上运行,包括Unix,Linux,Windows NT等。操作过程具有良好的可继承性和封装性。本发明主要采用C++语言以及标准的模板库(STL)。C++语言是支持数据抽象和面向对象的程序设计语言。它可以与C语言兼容,具有紧凑、灵活、高效和可移植性的优点。对比于C语言的函数,C++增加了重载(overloaded)、内联(inline)、常量(const)和虚拟(virtual)四种新机制。并且,C++语言提供了类(class)、名字空间(namespace)和访问控制,使设计决策的局域化(locality)成为可能。此外,在将分散的模块组合成完整的大型程序的过程中,名字空间和异常处理(exception handling)机制被用来降低整合过程的难度和复杂度;随着程序规模的增大,它们也随之起到越来越重要的作用。在主体程序框架的基础上,既使有一些以前存在的部分模块采用的是其它语言编写的程序,由于C++高度抽象化和对象化,因此可以实现在不影响程序的整体框架和其它模块的情况下,采用接口程序进行调用。另外在C++面向对象的主体框架下,具有良好的扩充性,为程序的不断进化提供了坚实的基础。
本发明的组合化学集中库的设计与优化的方法与在先技术中单纯组合化学实验优化比较,具有速度快,一天可以完成2万个化合物的优选;费用低,不耗费任何实验器材,完全通过计算机模拟实现。信息分析手段强,自动全局优化算法可以提供统计学上最好的集中库结果。提取有利元素成功率高,获得的集中库中组成的片段成为新药物的概率大。
本发明将遗传算法与组合化学方法相结合的组合化学集中库设计与优化的方法,可以用于基于大分子靶标三维结构的全新药物设计研究,为组合化学和计算机辅助药物设计在药物研究中的应用提供了新的方法。本发明编制的基于生物大分子三维结构的计算机辅助组合化学集中库的设计程序能够在给定受体大分子三维结构信息的基础上采用基于结构的药物设计方法进行虚拟组合初步筛选库的自动设计和评估,然后对虚拟组合初步筛选库用分子对接(dock)、分子多样性、分子类药性、ADME/T等方法进行评价,并应用遗传算法使各虚拟库不断优化,产生具有针对靶标的高亲和性,统计意义的高多样性和高类药性。是对于药物合成具有指导性意义的组合集中库。从程序获得的优化信息可以指导药物化学工作者进一步对现有先导化合物进行结构改造。
附图说明
图1为本发明组合化学集中库设计与优化方法的框架示意图。
图2为本发明中建立虚拟组合初步筛选操作过程的示意图。
图3为本发明中,建立模块结构评价体系的示意图。
图4为本发明实施例中,第一个分子结合能的转换曲线图。
具体实施方式
下面结合实施例及附图进一步说明本发明的设计与优化方法
本发明组合化学集中库的设计与优化方法就是一种虚拟组合化学集中库软件包的设计、建立与评价优化的方法。如图1所示,主要包括:
1.建立虚拟组合化学集中库软件包,第一步首先就要设计以靶标为基础的虚拟组合初步筛选库。虚拟组合初步筛选库的设计可分为3个步骤:
a.确定组合合成针对的靶标蛋白;
b.根据合成目标,挑选组合构建单元,设计合适的组合合成路线;
c.根据组合合成路线以及所能得到的基本构建单元,选定组合合成中的各基本构建单元中的单元构件(分子碎片或药效团)集合。
2.建立虚拟组合化学集中库软件包的第二步是建立虚拟组合初步筛选库。
a.根据组合化学反应,从指定构造单元中读取指定的单元构件(分子碎片或药效团)构建相应的虚拟组合初步筛选库。
b.在获得虚拟组合初步筛选库后,对库中的分子构象进行优化以获得最优构象。
3.建立虚拟组合化学集中库软件包的第三步是对虚拟组合初步筛选库进行评价及优化。
a.针对虚拟组合初步筛选库进行评价。首先建立模块结构的评价体系:建立分子活性(分子对接得到的小分子与生物大分子的相互作用能)、分子类药性、分子多样性以及不良的药物动力学性质或不适宜的毒性反应(ADME/T)的评价模块。建立的各模块中的输出结果必须经过变换、综合处理后转换为一个最终的数值,即对组合库进行综合评价,各模块代表的物理意义各不相同,因此在软件包中对各输出结果的权重在不同情况下进行参数调整并归一化为统一性评价标准。
b.采用遗传算法对虚拟组合初步筛选库进行优化。因为在一个虚拟组合初步筛选库中化合物的数量可达到106,甚至更多。为此,优化筛选是获得具有前途的小规模化合物库的关键。本发明采用遗传算法来进行优化操作:首先根据参数创建随机的初始集中库群,然后用分子对接、类药性、分子多样性、ADME/T等对各个集中库进行评价,运用遗传算法产生下一代集中库群,再根据设定的终止条件判断遗传算法是否继续,最后输出最佳结果。
下面举例进一步详细说明本发明的设计与优化方法。
1、第一步设计以靶标为基础的虚拟组合初步筛选库包括:
a.确定组合合成针对的靶标蛋白
在生物体内存在着一个复杂的生化网络来调节机体各种机能,根据研究需要确定合适的靶标蛋白是能否获得具有良好针对性的组合化学集中库的前提.靶标蛋白的确定要遵循以下两个原则:
(1).在生化循环中存在于网络交叉点具有关键酶特性的蛋白或是具有特异性的调节蛋白。
(2).该蛋白具有晶体结构或是该蛋白所属家族的其它类似蛋白具有晶体结构。
当合适的蛋白靶标确定后,就可以根据该蛋白进行虚拟组合集中库的设计。
下面是一个关于确定PPARγ作为蛋白靶标的实例:
过氧化物酶体增长因子活化受体(Peroxisome proliferator-activated receptor,PPAR,PPARγ)主要在脂肪细胞内表达,它是调节脂肪细胞分化的重要转录因子。PPARγ被激活以后可以促进白脂肪细胞(White adipocytes)分化成众多的小脂肪细胞而降低了大脂肪细胞的数量。研究表明,小的脂肪细胞相对于大细胞来说具有更高的胰岛素敏感性,能更好的利用葡萄糖。另外,近年来的分子生物实验已经确定PPARγ是胰岛素增敏剂噻唑烷二酮类药物(Thiazolidinediones,TZDs)作用的靶分子。因此,PPARγ激动剂很有希望成为一类全新的II型糖尿病治疗药物。
PPAR属于核激素受体(Nuclear hormone receptor)超家族(由英国科学家Issemann和Green于1990年首先发现的),是一类由配体(Ligand)激活的转录因子,由于这类新型的核受体可以被过氧化酶体增殖剂激活,故命名为PPAR。当被特定的配体激活以后,PPAR与某些基因上的一段DNA,亦称为过氧化物酶体增长因子反应元件(PeroxisomeProliferator responsive element,PPRE),相互作用,从而调节下游基因的表达。两栖类、啮齿类动物及人类的PPAR均存在三种亚型,即PPARα、PPARγ和PPARδ(亦称PPARβ),其中PPARγ是研究得最广泛的一种。最早报道的PPARγ合成激动剂是一系列噻唑烷二酮(Thiazolidinedione,TZD)类的化合物,其中包括曲格列酮(Troglitazone,1),吡格列酮(Pioglitazone,2)和罗格列酮(Rosiglitazone,3)等等。分子结构如结构式1所示:
Figure C20041005310200101
结构式1:噻唑烷二酮(Thiazolidinedione,TZD)类化合物结构及代表药物
曲格列酮、罗格列酮和吡格列酮已经作为治疗II型糖尿病药物分别于1997年和1999年被美国FDA批准上市,但是,曲格列酮上市一段时间后就发现了肝脏毒性及其它不良影响,于2000年被FDA撤销。毒性机理研究表明,曲格列酮与PPARγ结合的同时也激活另外一个核受体PXR(Pregnane X recetpor),从而导致了曲格列酮的毒副作用(可参照:1998年,葛兰素制药公司的科学家在英国自然杂志(Nature)上报道的PPARγ-罗格列酮复合物的晶体结构(PDB编号是2PRG)。由于噻唑烷二酮杂环(2PRG)形成的氢键对于TZD类激动剂与PPARγ活性口袋的结合非常重要,所以相关工作主要集中在疏水端的修饰上。人们希望能引入合适的基团形成更多更强的疏水作用。从这个思路出发,葛兰素制药公司合成了一系列的TZD类尾巴衍生物,其中有的活性达到了纳摩尔级)。
PPARγ是一种调节脂肪细胞分化的重要转录因子特异性受体,并且PPARγ的多种晶体结构已经被解析,可以从已有的蛋白质数据库库(PDB)库中荻得(http://www.rcsb.org/pdb/)。因此,选择PPARγ作为靶标蛋白来进行组合集中库设计对于获得全新的II型糖尿病治疗药物不仅有重要意义,而且具有可能性。
b.设计合适的组合合成路线
根据所选的进行组合集中库设计的靶标蛋白,设计合适的组合合成路线,即选择组合合成的构建单元,合成步数和路线。组合合成路线的选择主要是依据以下两个原则:
(1).靶标蛋白结合口袋部位的性质。
(2).对该蛋白已有药物药效团进行分析的结果。
根据靶标蛋白口袋性质的差异,可以将口袋分为几个不同区域,每个区域对应一个构建单元,按照逐步连接的原则设计合成路线,将各个构建单元连接起来,并计算将所有单元连接起来所需要的步数作为组合合成的步数。当缺乏对于靶标蛋白结合口袋部分性质的了解时,可以通过对该蛋白已有的药物、激动剂或是抑制剂的药效团进行分析,分解结构,获得组合合成的构建单元,合成步数和路线。
下面是一个关于确定针对PPARγ的组合合成路线的实例:
比较PPARγ天然激动剂和罗格列酮的结构,它们的结构都包含了一个极性头和疏水性尾。
Figure C20041005310200111
结构式2:罗格列酮的结构及划分
上面结构式2中是根据结构特征及性质将PPAR激动剂划分为极性头A、中间连接部分B和疏水尾C。在对大量已知激动剂的结构分析的基础上,本发明的实施例中选取了A、B、C三部分作为三个构建单元,并按照逐步连接的原则,将A和B作为第一步合成,将A和B连接起来的中间产物与C作为第二步合成。因此,当有A、B、C三个构建单元时,共进行两步反应,路线是先A+B,再加C。
c.选择构建单元中的单元构件集合(或称分子碎片集合或药效团)
在每个构建单元确定之后,根据每个构建单元的性质进行该单元分子碎片集合的选择。每个构建单元中分子碎片应该具有相同的性质,比如亲水性,亲脂性,含有氢键形成位点,静电效应类似等。对于每个构建单元选择一定数目(考虑到计算速度,每个单元的碎片最好小于150个)的分子碎片,碎片可以来源于已知的合成基本基团,例如苯基,酚基,杂环,酰胺基,酮基等,也可以来源于较大的存在于已知药物中有一定特异性功能的基团。
下面是一个关于确定针对PPARγ组合合成的各个构建单元分子碎片选择的实例:
因为PPAR激动剂可以划分为极性头A、中间连接部分B和疏水尾C三个构建单元。对于每个构建单元碎片的选择都要依据性质相同的原则。对于A部分,应该尽量选择具有极性性质的基团作为碎片;对于B部分,应该尽量选择具有一定柔性的基团以适应连接性;对于C部分,应该尽量选择疏水性较强的基团。根据上述原则,选取了A、B、C三部分的分子碎片,数目分别为118、88、98个。
2.建立虚拟组合化学集中软件包的第二步是依据上述的设计目标、路线和构建的单元,构建虚拟组合初步筛选库
a.构建虚拟组合初步筛选库
如图2所示。这部分程序是根据组合化学反应,从指定构造单元库(building blocklibrary)中读取指定的单元构件(分子碎片或药效团)构建相应的虚拟组合化学分子库。程序可以完成各种类型的化学反应和多步化学反应。同时,程序加入了因化学反应后原子类型发生改变而调整相关键长、键角及构象的功能。
所说的组合化学反应是十六大类固相合成反应,这十六大类固相合成反应是:
●锚反应(Anchoring Reaction)
●氨基成键反应(Amide Bond Forming Reactions)
●芳香取代反应(Aromatic Substitution Reactions)
●缩合反应(Condensaion Reactions)
●环加成反应(Cycloaddition Reactions)
●格林尼亚反应(Grignard Reactions)
●迈克尔加成反应(Michael Addition Reactions)
●杂环生成反应(Heterocycle Forming Reactions)
●多组分反应(Multi_component Reactions)
●烯烃生成反应(Olefin Forming Reactions)
●氧化反应(Oxidation Reactions)
●还原反应(Reduction Reactions)
●芳香取代反应(Non_aromatic Substitution Reactions)
●保护与脱保护反应(Protection/Deprotection Reactions)
●固相有机合成反应(Other Solid Phase Organic Reactions)
●裂解反应(Cleavage Reactions)
其中每一大类反应中包含多种反应类型。本发明考虑了多步反应的实现,在组合库生成时一次运行最多可以完成9步的化学反应。分子碎片库中的分子碎片的存储格式是mol2格式,包含了合理的三维结构信息。本发明对各分子碎片的反应位点、离去基团、键型变化进行标记,再进行相应处理后得到新的分子碎片库。分子碎片再按照反应步骤进行构象调整后依次连接,最终生成虚拟组合化学分子库。操作过程中,加入了化学反应中因原子类型发生改变而调整相关键长、键角及构象的功能。从而使得到的新分子具有合理的三维构象,即低能构象。如图2所示。因为这类反应中反应物的构象变化往往较大,涉及各个柔性键的键角及相应二面角的变化,常规方法很难预测反应后的构象,只有采用分子力学和分子动力学的方法才能较好地解决此问题。因此在成库之后加入构象优化步骤,使得组合获得的分子优化后具有低能构象。
b.对上述获得的虚拟组合初步筛选库中分子构象进行优化
由于组合产生的分子空间构象上的复杂性,造成部分分子空间构象极度扭曲,不适于进行下一步评价。在构建虚拟组合初步筛选库时要对虚拟组合库产生的分子进行构象优化。
本发明对分子构象的优化采用分子力场(Tripos)和空间搜索算法。空间搜索算法采用单纯形法和共轭方向法(Powell)相结合。单纯形法是一种空间不连续搜索算法,本发明用原子坐标作为自变量向量,在有n个原子的分子中,建立3n的向量,并在3n维空间中构造由3n+1个点构成的体积不为0的几何图形为单纯形。这3n+1个点是此单纯形的顶点,在搜索时,利用这3n+1个顶点的压缩、扩展和反射获得最优的空间解。单纯形法通过反射可以跳出局部能量最小,在搜索开始阶段效率较高,但在试验点接近全局最小时,其收敛速度明显变慢,也可能收敛到不是精确极小值点上。针对其特点,本发明采用了空间补偿动态调整的方法,在随着空间的压缩逐渐减小变动步长,直至收敛。为了能更快更好的完成空间全局最优的搜索,本发明在软件中设置单纯形法只是在优化的起始阶段使用,在达到一定标准后,改用共轭方向法(Powell)来完成进一步的优化。共轭方向法(Powell)是直接搜索法最为成功的一种方法。这种算法是基于二次型目标函数的算法。实验表明,对于具有二次型形式的目标函数,利用共轭方向作为其搜索方向,经过有限次单维搜索,就可以达到其极值点,这种对二次函数作有限次迭代就能达到极值的方法也被称为二次收敛性算法。Powell方法不计算目标函数的导数,因此在速度上可以更加快速的收敛。本发明将分子力场(Tripos)的能量函数作为目标函数,首先将其化为3n个变量的二次型,然后再在3n维二次型的每一维上单维搜索,直至满足收敛标准(能量收敛)。
化合物的空间手性是许多药物发挥作用的必要条件。因此在构象优化过程中保持手性的唯一性也是本发明分子构象优化部分的一个重要特点。本发明建立手性场概念,对于具有手性的化合物生成手性场,并将手性场转化为能量加到分子自身能量上作为构象优化的约束条件,经过不断实验调整,本发明获得了可以在构象优化中维持手性的最优参数,可以保证组合出来的手性分子在构象优化过程中手性恒定为初始状态。
另外本发明在分子构象优化中建立了自动筛选机制,自动分离在当前参数条件下空间构象优化后无法获得较优构象的极差分子,进而采用耗时较长的极端参数进行优化,从而既保证了大部分分子构象优化的较短的时间性,又满足了极端分子优化构象的完备性。
下面是一个关于确定针对PPARγ的虚拟组合初步筛选库建立和分子构象的优化实例:
根据第一步中获得的每个构建单元(分子碎片数目分别为118、88、98个),应用分子构建步骤,共获得总数为118*88*98=1017632个分子的虚拟组合初步筛选库。构建过程中程序根据相连的碎片原子类型自动选择合适的反应类型来连接两个碎片。构建完成后,对这个初步筛选库中的每个分子进行了分子构象优化,这个部分是由分子优化部分来完成的。
3.1.对虚拟组合初步筛选库进行评价
a.首先建立对初步筛选库的评价体系,如图3所示,建立分子活性评价模块(分子对接得到的小分子与生物大分子的相互作用能)、分子类药性评价模块、分子多样性评价模块以及ADME/T评价模块。前面三种评价模块是预测建立的最基本的评价模块。不仅用于对虚拟组合初步筛选库的评价,还应用于组合集中库的优化过程中。各模块中的输出结果必须经过变换、综合处理后转换为一个最终的数值,即对组合库的综合评价,才能反馈到遗传算法(GA)中。各模块输出结果的物理意义各不相同,数值差异很大,而且各输出结果的权重需要在不同情况下调整。因此如何将各项结果分别归一化是一个重要问题,下面分别对建立的各个评价模块的评价方法进行说明。
a.所说建立的分子活性评价模块(包括电荷计算模块)的评价方法:
分子活性评价模块的评价方法采用的是分子对接方法。评价配体与受体之间的结合能力。分子对接法是将小分子配体放置于受体的活性位点处,并寻找其合理的取向和构象,使得配体与受体的形状和相互作用的匹配最佳。在药物设计中,分子对接方法主要用来从小分子数据库中搜寻与受体生物大分子有较好结合性的小分子,进行药理测试,从中发现新的先导化合物。分子对接是从整体上考虑配体与受体结合的效果,能比较好的避免其他方法中容易出现的局部作用较好,而整体结合欠佳的情况。
对接分子(DOCK)是第一个分子对接程序,而且考虑配体柔性,因此本发明采用DOCK作为分子活性评价的对接程序。电荷计算也是程序中必不可少的部分。在计算分子中各原子的电荷分布时,考虑DOCK程序的要求,采用(Gasteiger Marsili)电荷分配方法,编写了基于C++语言的电荷计算程序。如图3所示。
对于DOCK 4.0程序的结合能通常在-10到-60kJ□mol-1,但上下没有界限。因此不能用简单的方法完成归一化,需要用非线性变换将其值转换到一个有限区间。在这里可以采用S形曲线(Sigmoid)函数。Sigmoid函数表达式如下(公式1):
y = 1 - e ax 1 + e ax ......公式1
其中a是一个常数项。在x值为任意实数时,y值的范围值的范围都在-1到1之间。这样就解决了将无界限数值一一对应地映射到一个有限区间。接下来还要考虑在本发明感兴趣区间,转换函数的区分度问题。因为结合能小于-60kJ.mol-1时,根据这个结合能计算出来的配体与受体之间的结合常数已偏离真实值,讨论区分度的意义不大;当结合能大于0kJ.mol-1时,说明受体与配体不结合。这种情况也不必讨论区分度。所以,本发明更为关注结合能在0kJ.mol-1到60kJ.mol-1这一部分的曲线。当a=0.05时,函数的转换曲线如图4所示。
从图4中可以看出,在结合能为-60~0kJ.mol-1区间,能量评分为0.9096到0之间,而且恰是曲线斜率较大的区段,因此对结合能有较好的区分度。
DOCK程序输出的结果信息文件(*.info)中对分子对接结合能自动进行了排序,并将结合能为正值(>0)的结果全部改成0。当本发明从这个文件中读取所有分子的结合能时,由于结合能没有正值,相应的分子活性评价的得分肯定在0到1之间,这样也就较好地完成了归一化问题。配体与受体之间结合得越好,结合能的绝对值越高,得分也就越高。
b.所说建立的分子多样性评价模块的评价方法:
分子多样性评价模块的评价方法采用结构多样性的描述法,选用40种描述符,比已有的39种描述符增加了分子极化表面积参数。新药发现的初始阶段,需要从分子数目较大的虚拟库中发现新的分子骨架(scaffold)结构,强调分子之间的多样性;而先导化合物优化阶段,则在保持较好的分子骨架的同时,寻找更好的取代基,注重分子的相似性。因此,计算分子多样性的方法,要在化合物库中分子结构的真实差异性很大或者很小的情况下,都能得到一个合适的区分度。在类药性预测方面本发明主要集中在物理性质方面,因此在分子多样性的算法实现上采用了结构多样性描述。分子多样性计算部分在具体计算上选用了40种描述符(20种拓扑指数,20种结构参数)来计算组合库的分子多样性。具体步骤是:
b1.首先选择描述符
从前人的研究成果可以看出,采用二维结构描述符不仅计算速度快,而且效果也较好。因此,本发明确定了分子多样性结构描述符。
在先技术中,(参见:Ashton MJ,Jaye MC,and Mason JS.New perspectives in leadgeneration.II.Evaluating molecular diversity.Drug Discovery Today 1996,1:71-78)采用了分子量、各种常见元素的含量、氢键供体和受体的数目、可旋转键数目等结构参数和多种拓扑指数共159个描述符参数,对100000个化合物的商用数据库进行了计算;然后用无根聚类的方法对159个参数进行了相关性分析,按照标准去除紧密相关的参数,最后得到了参数之间相关性最小的子集,只有39个参数(见表1)。其中属于结构的参数有19个,拓扑指数有20个,表1中的第一项是各参数的名称,第五项是参数的具体含义,第二、三项是1000000个有机化合物在此参数上的得分的平均值和标准偏差。
在先技术中,用这个参数集与用20种分子轨道性质(例如偶极矩、高倍占用分子轨道(HOMO)、分子最低空余轨道(LUMO)、生成热等)参数集进行了对比,对同样的数据库采用优化方法进行多样性最大选择,计算各参数的权重见表1第四项,计算结果表明这个参数集更加快速有效。参数权重值与分子多样性计算方法直接相关。
本发明在这39个参数的基础上,增加了分子极化表面积(PSA)参数,PSA与药物吸收等性质密切相关。因此,可以加强程序对类药性小分子的结构多样性描述。本发明采用的分子极化表面积计算方法,是基于分子二维拓扑结构的原子加和法(即TPSA)。因此,它也是一种二维拓扑结构描述符。在分子多样性描述符的选择中,原则上采用分子结构的二维参数,而把与分子的物化性质,例如油水分配系数(logP)则放在类药性研究中去考虑。前39个描述参数的计算,本发明利用了已有的学术软件-多样性计算软件(ALTER),它是采用公式转换(Fortran77)语言程序编写的。而本发明的二维拓扑分子极化表面积参数(TPSA)的计算是采用C++语言编写的。
表1.在先技术中分子多样性描述符及其权重
描述符 平均值 标准偏差   权重 含义
MW   317.456   117.343   5.0 分子量
Idon   1.352   1.298   3.0 氢键供体
Iacc   3.043   2.368   3.0 氢键受体
thyd   0.923   0.281   0.2 氢原子百分比
thet   0.263   0.131   0.2 异原子百分比
thal   0.018   0.039   0.2 卤原子百分比
tf   0.005   0.026   0.2 氟原子百分比
tcl   0.012   0.028   0.2 氯原子百分比
tbr   0.001   0.001   0.2 溴原子百分比
ti   0.001   0.013   0.2 碘原子百分比
tcarbon   0.737   0.131   0.2 碳原子百分比
tphos   0.001   0.010   0.2 磷原子百分比
tsulph   0.013   0.031   0.2 硫原子百分比
toxy   0.132   0.093   0.2 氧原子百分比
tnitro   0.099   0.084   0.2 氮原子百分比
Nring   2.631   1.442   2.0 环数目
tiribo   16.031   8.393   0.2 键数目
tirobo   0.541   0.971   0.2 旋转键数目
tiprbo  0.675   0.273     1.2   旋转键比例
tibab  1.838   0.487     0.4   博刺绊(Balaban)指数
ticent  0.176   0.031     0.4   中心指数
tizag1  47.529   18.358     0.4   泽格若比(Zagreb)M1指数
tizag2  137.155   60.756     0.4   泽格若比(Zagreb)M2指数
tiran0  16.045   5.739     0.4   赖恩迪克(Randic)零级指数
tiran1  10.544   3.856     0.4   赖恩迪克(Randic)一级指数
tiesum  66.513   24.047     0.4   全原子电子拓朴加和
tiehet  31.784   17.949     1.0   异原子电子拓朴加和
tiehal  2.136   4.758     1.0   卤原子电子拓朴加和
tiecar  34.729   15.404     1.0   碳原子电子拓朴加和
tikap1  7.596   6.474     0.5   凯尔和海尔克泊(Kier and Hall Kappa)第一指数
tikap2  7.598   3.038     0.5   凯尔和海尔克泊(Kier and Hall Kappa)第二指数
tikap3  4.335   2.151     0.5   凯尔和海尔克泊(Kier and Hall Kappa)第三指数
tirad2  5.671   1.836     0.2   佩倜忒绛(PetitJohn)R2指数
tidia2  10.710   3.635     0.2   佩倜忒绛(PetitJohn)D2指数
tii2  0.881   0.125     0.2   佩倜忒绛(PetitJohn)I2指数
tihar2  41.389   18.529     0.2   海剌瑞(Harary)数
tischul  6120.165   7991.119     0.2   苏尔芝(Schultz)指数
tisyml  0.812   0.143     1.0   总体对称指数
tisyml2  0.108   0.161     1.0   成对对称指数
b2.对于分子极化表面积(PSA)参数的计算方法
本发明选用距离法计算分子极化表面积的参数。因为距离法物理意义明确,计算相对简单。距离法首先将所有描述变量归一化,再依据各描述变量的权重构成一个欧几里德距离空间。这样分子之间的相似性(或差异性)可以用在此空间的距离来表示。两个分子的距离定义为公式2
dij = &Sigma; k ( x ^ k i - x ^ k j ) 2 ......公式2
其中
x ^ i j = w i ( x i j - x &OverBar; i &sigma; i ) ......公式3
Figure C20041005310200182
是归一化后第j个分子的第i个的描述变量,而xi j是一个归一化前的描述变量,是第i个描述变量的平均值,σi是第i个描述变量的标准偏差。wi是第i个描述变量的权重。在计算每个集中库的分子多样性时,没有单独归一化一个集中库的分子多样性描述变量,而是将同一代集中库的所有分子放在一起归一化,这样确定了集中库之间的分子多样性的可比性。
在具体计算中,每个集中库的分子多样性的数值是库中所有分子两两之间的权重距离之和,见公式4。
D k = 1 n ( n - 1 ) &Sigma; i = 1 n &Sigma; j = 1 j < i d ij ......公式4
其中n是第k个集中库的分子总和,dij分子i和j的分子性值。
这种组合库的分子多样性计算方法与其它适用于大规模组合库的计算方法相比,减少了偏差。如前所述,在先导化合物的结构改造时,由于分子整体结构变化不大,得到的分子多样性的数值差异会很小;而且在设计虚拟组合化学集中库时,只需要区别同一代中各集中库的相对分子多样性。为了解决这个问题,在计算完成集中库的分子多样性得分后,再将各个集中库的得分进行归一化,如公式5
D i , out = D i - D min D max - D min ......公式5
Di,out是集中库的最终分子多样性得分;Di是集中库中i的分子多样性得分,来自公式4;Dmax和Dmin分别是这一代集中库的最大和最小得分。这种归一化避免了负值的出现。因此,具体在最大分子多样性的集中库的最终得分为1,而其它集中库的最终分子多样性得分在0到1之间。这样就较好地解决了组合库结构差异无论是很大还是很小的情况下,最终分子多样性得分都在一定范围并具有相对区分度。达到了本发明定量描述分子符的目的。
b3设置对于分子多样性的评价参数
在计算分子多样性时,前39个分子描述参数来自在先技术中,他们的相对权重已经过计算实验和讨论。本发明在加入TPSA后,参考表中的权重值,并通过对EGFR当前活性化合物以及MDDR数据库(MDDR-MACCS-II Drug Data Report)数据的评定,将其设为3.0,与氢键的受体数,氢键的供体数的权重相等,低于分子量MW的权重。将所有40个权重归一化后,即得到关于分子多样性评价模块程序中实际应用的权重。
c.建立的分子类药性评价模块的评价方法:
建立分子类药性评价模块的评价方法选择含有分子结构比率描述符的7种描述符。本发明注意到:分子量越大的分子所含的药效团、氢键供体、受体数目等都会增加。而目前现有的类药性的研究中一般都是用简单的性质计数作为描述符,并不能很好的反应出数据库类药性的差异。
综合药物广泛性医药化学库(CMC-Comprehensive Medicinal Chemistry)是比药物及类药物分子数据库(MDDR-MACCS-II Drug Data Report)更具有类药性的数据库。但在用现有的类药性标准评价时(例如Oprea),并不能很好的反映出这一本质。因此,在类药性评判中,应该尽量减少因分子量越大,分子所含的药效团、氢键供体和受体数目越多引起的误判。一个简单的方法就是用一些表示分子结构性质的描述符与分子量的比率作为新的描述符,来区分类药性的化合物库(如MDDR、CMC)和非类药的化合物库(如ACD),从而达到消除化合物大小对类药性的影响的目的。本发明把这些新的描述符称为分子结构比率性描述符。本发明用一系列分子结构比率性描述符测试了CMC,MDDR,ACD数据库的类药性,得到很好的结果。在此基础上,本发明根据有机小分子特性,从中挑选与分子类药性相关性大的描述符,进一步量化化合物的类药性。
在对有机小分子的类药性定量描述时,本发明选择对判断分子类药性有重要作用的分子结构比率描述符,并结合“5规则”的分子性质描述符,最后确定了7个描述符作为分子类药性的评价,表2给出本发明分子类药性评价模块中评价分子类药性的属性
表2.分子类药描述符及其权重
 描述符     范围   权重   含义
 xlogP     -0.5~5   0.1   正辛醇/水分配系数
 MW     78~500   0.1   分子量
 HBA     <=10   0.1   氢键受体数
 HBD     <=5   0.1   氢键供体数
 C3p     0.15~0.8   0.2   饱和碳原子数目与除卤素原子之外的重原子数目之比
 h_p     0.6~1.5   0.2   氢原子数目与除卤素原子之外的重原子数目之比
 unsat_p     0.05~0.45   0.2   分子不饱和度与除卤素原子之外的重原子之间的键数目之比
从本发明对类药化合物库与非类药化合物库的统计对比研究发现,并不是一般认为的有机小分子化合物的刚性越强越好,而是对有机小分子化合物饱和碳原子也有一定的比例要求。其中类药分子的不饱和度,饱和碳原子的比例,不饱和原子的数目和饱和碳原子数目之比,不饱和原子的数目和饱和原子数目之比,饱和原子的数目与碳原子的数目之比,氮氧原子数目与饱和碳原子的数目之比要在一定范围。这些结论为选择有机小分子类药性描述符的选择提供了依据。在本发明选择的7个描述符中,兼顾了有机分子分子物理化学性质,分子饱和度性质,自由度性质等多种分子本征属性。其中,根据文献,适用于药物动力学性质的最重要的物理化学性质就是脂溶性(或水溶性),logP是描述这一特性的目前最好的分子描述符;在配体一受体的非共价相互作用中,氢键的作用是两者紧密结合的一个关键的组分,HBA和HBD体现了分子的这种能力;不饱和度(unsat_p)与环的数及不饱和键数有关,也与分子的芳香性有关;MW给出了有机小分子分子量的范围,这个范围是根据对目前几千种药物分子量范围统计获得的结果;C3p描述符与分子的刚性大小有关,表征了有机小分子的自由度;h_p描述符是比较好的不饱和度描述符。
通过以上7个描述符的加权归一化,本发明可以获得分子类药性评价模块中有机小分子的类药性打分。
d.ADME/T(不良的药物动力学性质/不适宜的毒性反应)评价模块的筛选方法:
因为绝大部分药物在进入临床实验后被淘汰的主要原因不是因为药效,而是因为不良的药物动力学性质(ATME)或不适宜的毒性反应(T),造成了前期用于合成和药理实验大量资金的浪费。所以对于虚拟组合集中库来说,建立ADME/T评价模块也是有其重要意义的。
建立的ADME/T评价模块的筛选方法可以是建立在分子基础上,在分子水平构造生物模型,通过量子力学计算方法,待选化合物在生物模型中的各物理,化学和生物描述符号来获得ADME/T性质;或者是通过统计学建立在定量结构活性关系(QSAR)和定量结构性质关系(QSPR)基础上的方法;或者是建立在人体生化网络基础上的方法;或者加入到类药性评价模块的评价中与类药性信息统一拟和归一化,见类药性评价模块表2中的7个描述符参数。
e.对上述各评价模块综合参数进行归一化
由于上述各个评价模块的计算方法不同,因此获得的结果必须经过归一化形成一个单独的变量来对一个分子进行综合评价,这就涉及到综合参数的归一化问题。在上述评价模块自身归一化的基础上,本发明通过对集中库的评价获得评价模块得分后,通过归一化的加权总得分,反馈给组合集中库优化部分用遗传算法进行优化。在起始阶段,本发明对于分子结合能,分子多样性,分子类药性的权重范围设定分别在0.5~0.9,0.1~0.3,0.1~0.3之间变化,三者总和为1。随着对不同系统的测试,根据多个测试系统给出最优权重范围为0.7,0.2和0.1。
3.2.采用遗传算法对虚拟组合初步筛选库进行优化为组合集中库
遗传算法是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。简单而言,它使用了群体搜索技术,将种群代表一组问题解,通过对当前种群施加选择、交叉和变异等一系列遗传操作,从而产生新一代的种群,并逐步使种群进化到包含近似最优解的状态。在遗传算法中,需要确定遗传因子的编码,本发明编写的基于C++语言的选择、交叉、变异等算法,能高效稳健地完成遗传算法的各项功能。在虚拟组合化学库生成程序的接口和选用遗传子的编码方面,找到了高效、稳定的方法。
a.选择编码
在遗传算法中,最常用的编码方法是二进制编码。在组合库程序中有用二进制编码表示组合碎片,或者将分子指纹转化为二进制编码的表示方法。本发明考虑到分子的多样性和无限性,而且碎片间并无一定的内在联系,故本发明选用动态编码和实数编码方法,即选用十进制的编码方法,本实施例中碎片编号作为编码。这样,计算操作比较简便,编码直观,对组合库中的分子数量也没有限制。
b.选择复制算子
在本发明的程序中,选用的复制算子(也即选择算子)实在选择复制过程中最常用的一种方法——轮盘赌方法,其基本步骤为:
(1)将群体中所有串的适应值相加求总和;
(2)产生一个在0与总和之间的随机数m;
(3)从群体中编号为1的串开始,将近其适应值与后续串的适应值相加,直至累加和等于或大于m。最后加入的串就是所要选择的串。
赌盘选择的结果是返回一个随机的串,但每个串被选择的几率与其适应值成正比。虽然在选择的随机性使群体中适应值较差的串可能被选中,但随着进化过程的进行,这种偶然性的影响将被消除掉。为了加快进化的速度,在选择过程中保留一个或几个适应值最高的个体直接进入下一代,这种方法加快了进化所需的代数。在程序中采用这种方法,并提供设置“选择保留数K”这个选项供使用者调节。
c.选择交叉算子
交叉算子相当于生物遗传中的有性繁殖,可以产生新的个体,从而检测或搜索空间中新的点。在本发明的程序中,个体是一个集中库,基因是一系列分子碎片。本发明选择了较优的两点交叉方法,首先在1和个体总数(集中库总数)之间选择两个不同的随机整数r1和r2,即两个个体(集中库),作为交配池中父体和母体;然后,从另两个不同的随机整数r3和r4决定杂交的位段,即交换的起始位置和终止位置。最后,检查新一代的每个个体中是否含有重复的基因,如果有则重复上一步骤,直到产生两个正确的新个体为止。在程序中提供Pc作为参数供用户调节。
d.选择变异算子
变异算子是以较小的概率Pm随机改变染色体串上的某些位,对于二进制来说,就是相应位由0变为1或由1变成0。因为在本发明的程序中,位是某一反应步骤的构建单元的十进制编码,变异算子是首先随机选择一个位,在此位上再随机选择一个所在反应步骤中未选中的构建单元,完成变异操作。在程序中提供Pm作为参数供用户调节。如图3所示。
在具体的程序编写中,因为本发明采用C++语言是一种高度类型化的语言。所以,给出合适的类和模板的定义以及合适的函数声明是整个设计工作中最大的一部分。化学是以原子和分子为对象的科学,所以许多化学方面的以面向对象语言编写的程序都以原子,分子为基类。因此本发明组合集中库设计采用的基类也是建立在包括了原子,键,分子等重要基类的基础上。在需要时,加入基团等基类和根据具体对象产生的衍生类,上述噻唑烷二酮类化合物结构及代表药物的分子式详细表示了本发明程序中所使用的类和它们之间的关系。
在本发明的程序中除加入编程语言自身的常规容错程序外,还对程序人为的参数设置错误添加了自动校正程序。在程序中为大部分参数设定了默认值,这样既便于程序的使用,也提高了程序的对需要长时间运算的程序来说,程序的中断和中断后重启的功能十分重要,这样可以避免意外情况下计算资源的浪费和计算时间的延长。在程序运行期间,在遗传算法每一代计算完成时都会输出相应的记录文件,将程序的下一步计算必需的信息全部保存。这样在程序中断后重启只需一个简单的命令即可进行。
e.设置遗传算法默认参数
对于一个成熟的程序设计而言,给定可以解决大部分问题的默认参数值是必须的。这样不但可以扩大使用的范围,而且可以提高程序使用的效率。
影响遗传算法的主要参数有群体大小N、选择保留数K、交叉概率Pc和变异概率Pm。为了寻求对本发明设计最佳的参数,本发明进行了多次实验,以获得最佳默认参数。本实施例的程序运行环境是标准(SGI)的Unix操作系统(IRIX3),整个程序的运算和测试都是在SGI的计算机(origin3800)上进行,使用单一CPU。
群体规模影响到遗传算法的最终性能和效率。当规模太小时,由于群体对大部分超平面只给出不充分的样本量,所以一般只能得到局部最优解;大的群体规模更有希望获得包含出自大量的超平面的代表,有更大的几率获得全局最优解,但是也更加耗费时间,因此获得一个适当的群体数是平衡时间以及解的最优性的关键。一般推荐在20~50,在测试中(请见下一个单元)本实施例中使用的范围从10~60,每次增加10来测试,最终获得30为最佳群体规模数。
选择保留数是指在选择算子的操作中,直接将上一代的前K个适应值最大的个体复制到下一代群体中。这样,既保证了最佳个体直接进入下一代,也促进了群体的适应值的提高速度。但是如果保留值的取值太高,就会造成遗传算法(GA)过早收敛,陷入局部最优。因此K的取值通常为群体规模的5~15%。设立测试范围为0到6,每次增加1。通过测试(请见下一个单元),本实施例中确定在群体规模为30的情况下,K的最佳取值为3。
交叉概率控制个体之间交换基因片段,是群体信息交互的关键。在每代的群体中,有Pc×N个个体参加交叉。交叉率越高,群体中个体更新越快。如果交叉率过高,高性能的个体被破坏的几率越大;如果交叉率过低,搜索会由于太小的探索率而停滞不前。本实施列中设立测试范围为0.05到0.8,每次增加0.05。通过测试(请见下一个单元),则确定在群体规模为30的情况下,K取值为3时,Pc的最佳值为0.25。
变异是增加群体多样性的算子。第N次选择后,新的群体中的每一个个体以概率Pm进行随机改变,从而每代大约发生Pm×N×L(L是个体上的基因个数)次变异。一个低水平变异率可以防止整个个体高收敛性,而高于0.5的变异率相当于随机搜索。本实施例中设立测试范围为0.005到0.05,每次增加0.005。通过测试(请见下一个单元),则确定在群体规模为30的情况下,K取值为3时,Pm的最佳值为0.015。
3.3对上述建立的组合化学集中库进行检测
a.设计检测系统,设计检测系统是依据活性与结构之间关系
组合集中库设计程序是经过多个药物筛选系统检测均衡获得默认最优参数的,这里仅以环氧化酶-2(Cox-2)系统抑制剂作为例子详细说明经过检测获得参数的步骤。
炎症是机体对各种炎性刺激引的起组织损害产生的一种基本病理反应,是一种常见病和多发病。非甾体抗炎药(NSAIDs)是一类具有重要应用价值的抗炎镇痛药物,临床上广泛用于各种急性、慢性炎症及疼痛的治疗。但长期使用现有的NSAIDs易引起胃肠系统及肾脏等组织的不良反应,因此,寻找高效低毒的NSAIDs一直是药物学家致力研究的课题。
环氧化酶-2的发现为NSAIDs的研究提供了新的思路。近几年发现的环氧化酶-2(COX-2)选择性抑制剂与传统NSAIDs相比,胃肠道毒副作用更低,是一类很有发展前景的新型抗炎药。在先技术中都在积极进行COX-2选择性抑制剂的研究,并且已发现了一些有药用前途的化学实体。目前正在开发研究的COX-2选择性抑制剂从化学结构上可分为二芳基取代杂环类、甲磺酰苯胺类、二叔丁基取代苯酚类等几大类,其中研究比较多的是二芳基取代杂环类化合物。
二芳基取代杂环类化合物的结构特征是邻二苯基取代苯环、杂环以及不饱和脂肪环,其中一个苯环上对位具有甲磺酰基或氨基磺酰基是分子呈现COX-2高选择性抑制作用的必需药效基团,当以氨磺酰基取代甲磺酰基时,尽管化合物分子体外选择性有所降低,但体内活性显著提高。编号SC58635就是由此开发出来的一种高效COX-2选择性抑制剂3(如结构式3所示)。
Figure C20041005310200241
结构式3 SC58635的结构与划分
b.选择分子碎片(即单元构件集合)与参数
本实施例将以二芳基取代杂环类化合物(以SC58635为例,如结构式4所示)从结构上分成三个部分:(1)头部A:在对位具有甲磺酰基或氨基磺酰基的苯环;(2)中间部分B:间位有两个连接位点的芳香环或不饱和脂肪环;(3)尾部C:在对位常有取代基的六元环或苯环。同时,对1,5二芳基取代吡唑衍生物的构效关系研究表明:1,5位芳环互换时,化合物的活性改变不大,但选择性降低。本发明在设计组合库的分子碎片时,充分考虑了这些研究结果。
通过对该系统化合物的分析,将COX-2看成是通过两步反应合成,即分为三个分子碎片A、B、C。根据该系统目前药物含有的药效基团以及根据分子等排原理,本实施例分别对A、B、C部分选取了16个、12个和4个分子碎片,共计16×12×4=768GE个分子。具体结构见结构式4。在B部分,即中间部分,设计了间位互换的情况,因此有的分子碎片重复出现,但连接位点不同。
Figure C20041005310200251
A部分的分子碎片
Figure C20041005310200252
Figure C20041005310200261
B部分的分子碎片
Figure C20041005310200262
C部分的分子碎片
结构式4.COX-2抑制剂集中库碎片设计
如分子对接中的靶标结构是以晶体结构(PDB4编号为6COX)为基础得到的,其中含有SC-55820抑制剂。分子对接参数中,“锚”的最小原子数为5,“锚”的取向数以及新增加的片断选择的构象数分别为500和25。
c.程序稳健性测试
为了获得最优参数,首先要保证程序的稳健性。因此本发明首先测试程序的稳健性,本实施例中选用的参数如下:
反应步数:
反分子碎片数:12,16,4
集中库选取分子碎片数:4,4,2
遗传算法:
群体规模:30
选择保留个数:3
交叉概率:0.25
变异概率15
最大遗传代数:1000
程序结束条件:得分排在前70%的集中库具有相同的分子碎片或遗传代数超过最大遗传代数
分子活性得分权重:0.7
分子类药性得分权重:0.2
库的多样性得分权重:0.1
程序运行环境是SGI的Origin3800的IRIX系统,整个程序测试使用单一CPU,共进行了24次重复运行,运行结果见表3。
从运行结果来看,24次运行程序全部在628代内达到程序结束条件,其中54%在200代以内完成,说明遗传算法的搜索效率较高,能在较短时间完成程序功能。从各部分的运算时间看,速控步在分子对接中。
表3.程序运行结果一
  遗传代数   最高库得分     最佳集中库的分子碎片
            一                 二       三
    123456789101112131415161718192021222324   486412159405187197443251041031681181322116281143148957322717823024359   0.78320.77780.78030.78410.78320.78870.78820.77930.77340.78920.77860.78320.78460.77980.79060.79060.79060.78920.78810.77980.78270.79060.77990.7842   111111141111111111111113     222222222222422225222222     555555354355855358555555     999999999999999999999999     111111111111111111111111     999999999999999999999999     88812812121612488168121212121281212812     101010101010101010101010101010101010101010101010     111111131111311111111111     444444444444444444444444
对最佳集中库的分子碎片的组成分析。第一部分出现的最多的组合是1、2、5、9,共16次;而1、2、3、9,有3次。对单分子碎片而言,9出现了24次,而1和2出现了22次,5出现了18次,3出现了4次,4出现了3次,8出现了1次。说明1,2,9是在这一部分最好的分子碎片,而5次之。
第二部分分子碎片中1、9和10每次均出现,12出现了12次,8出现了9次,另外16和4各出现2次和1次。说明1、9、10是相对最好的分子碎片,而12、8仅次之;在组合中,1、9、10、12组合出现12次,1、8、9、10出现9次,1、9、10、16出现2次,这说明12、8二者取其一与1、9、10组合时的得分相差很小。
第三部分基本上是1、4组合,只出现了两次3、4的组合,这都是在第一部分有分子碎片4的情况下出现的。
综合来看,第一部分是1、2、5(或3)、9,第二部分是1、9、10、12(或8),第三部分是1、4的情况出现了20次。虽然出现概率只有83%,但由于许多分子碎片在综合评分上相差很小,在不同组合环境下,分子多样性的得分不同。因此得出了有少量差异的最佳组合。这一点在集中库的得分上可以看出,即使是具有相同的集中库,得分也不相同,例如第1到3次运算。这主要是因为除最佳集中库之外,其它同代的集中库的组成不一样,而分子多样性评价是由同一代中所有集中库的组成计算得出的相对值,因此得分不同。
在只改变集中库的规模(分子碎片数变为3×3×2),其它参数不变的情况下,程序运行12次,结果见表4:
表4程序运行结果二
    遗传代数     最高库得分     最佳集中库的分子碎片
           一           二     三
  123456789101112     8326780116358124107160211208199155     0.79060.78730.78970.78750.78860.78320.78530.78740.78660.78770.78660.7888     111114111111     253522252222     999999999999     111111111111   1299999991212129   101010101010101010101010   131111111111   444444444444
由表4得出的结论与表3大致相同。分子碎片的第一部分主要是1、2、5、9,其中1、2、9组合占优;第二部分是1、9、10、12,其中1、9、10组合占优;第三部分基本上是1、4组合,3、4只出现过一次。
由此,本发明可以得出结论,虽然每次运算结果得出的最佳组合库的组成略有不同,但都是较好的集中库构成。在调整集中库规模后,也得到了一致的结果。
表3中集中库的得分在0.7734和0.7906之间,变化并不大。在其中最低的0.7734的组成中,第一部分的分子碎片出现了唯一一次1、2、4、9组合;表4中得分最低的是第6个结果,分子碎片出现了异常,其中第一部分也出现了碎片4。
表3和表4的结果,充分说明了这个程序每次运行都能找到组合空间中的最佳子空间,具有较好的稳定性,为整个程序的正确运行提供了良好的基础。综合上面的讨论,可以认为程序实现了设计组合集中库的功能,运行结果有较好的重现性。
d.选择最优参数
在程序运行的稳健性得到证实后,本发明对程序的关键参数进行了选择,找出程序最优的参数集。参数选择集中在与遗传算法相关的参数上。参数选择实验一将杂交率Pc,变异率Pm分别固定为0.25和0.015,改变群体规模N,选择保留数K,从而找出这两个参数的最佳值。由于群体规模变化大,程序收敛可能变慢,因此这里将遗传最大代数定为3000。按照前面稳健性方面的测试结果,在构建单元的第一部分是1、2、5(或3)、9,第二部分是1、9、10、12(或8),第三部分是1、4时,并且在未达最大遗传代数时的情况下收敛,说明参数设置合理。在表5中第6列(T)用V来表示。
表5.参数选择实验一
  No.系统标号     Gap收敛代数  N群体规模   K选择保留数   Score得分   T是否能够得到正确的集中库     Select blocks选择的结构单元
  1     12  10   0   0.7773     1   5   6   9   6   10   13   15   1   4
  2     9  10   1   0.7781     1   4   8   9   7   10   12   16   2   4
  3     4  10   2   0.7767     1   3   5   6   3   10   15   16   1   4
  4     3000  20   0   0.7543     6   7   8   9   7   9   10   15   1   3
  5     372  20   1   0.7866   V     1   2   5   9   1   9   10   12   1   4
  6     70  20   2   0.7797   V     1   2   5   9   1   8   9   10   1   4
  7     67  20   3   0.7838     1   2   3   9   1   8   9   12   1   4
  8     29  20   4   0.7802     1   2   3   9   1   4   8   9   1   4
  9     3000  30   0   0.7324     1   3   4   12   3   5   7   11   3   4
  10     2731  30   1   0.7864   V     1   2   5   9   1   9   10   12   1   4
  11     108  30   2   0.7785   V     1   2   3   9   1   9   10   12   1   4
  12     127  30   3   0.7879   V     1   2   5   9   1   9   10   12   1   4
  13     20  30   4   0.7710     1   2   3   9   1   3   8   16   1   4
  14     40  30   5   0.7870   V     1   2   3   9   1   9   10   12   1   4
  15     48  30   6   0.7838     1   2   3   9   1   9   12   16   1   4
  16     3000  40   0   0.7753     1   7   9   12   1   7   8   14   1   2
  17     3000  40   1   0.7767     1   4   8   9   1   9   10   16   3   4
  18     391  40   2   0.7741   V     1   2   5   9   1   8   9   10   1   4
  19     676  40   3   0.7751   V     1   2   3   9   1   9   10   12   1   4
  20     231  40   4   0.7762   V     1   2   5   9   1   8   9   10   1   4
  21     205  40   5   0.7792   V     1   2   3   9   1   9   10   12   1   4
  22     78  40   6   0.7786     1   2   3   9   1   10   12   16   1   4
  23     15  40   7   0.7722     1   2   9   10   1   10   12   14   1   4
  24     37  40   8   0.7785     1   2   3   9   1   9   10   16   3   4
  25     3000  50   0   0.7618     1   2   7   10   4   6   9   13   3   4
Figure C20041005310200301
  74   253   80   10   0.7763   V   1   2   5   9   1   8   9   10   1   4
  75   443   80   11   0.7762   V   1   2   5   9   1   8   9   10   1   4
  76   88   80   12   0.7748   1   2   8   9   1   9   10   16   3   4
  77   71   80   13   0.7771   V   1   2   5   9   1   8   9   10   1   4
  78   89   80   14   0.7760   1   2   8   9   1   9   10   16   3   4
  79   117   80   15   0.7764   V   1   2   5   9   1   8   9   10   1   4
  80   44   80   16   0.7748   1   2   8   9   1   9   10   16   3   4
表5的测试结果表明:
(1)能得到正确结果的集中库(即有″V″项)基本分布在K值为N的5%到20%的范围内.34个中只有两个例外。
(2)群体规模N越大,平均收敛代数越大。
(3)在N不变时,K越大越容易收敛,当K大于N的20%的时候,很难找到全局最优解。
(4)N值小于20时,由于群体规模太小,样本不充分,搜索点太少,结果不可靠。
从上面的结果可知,在群体规模N=30,在选择保留数K=1~5这个区间,是一个较好的参数群,能得到较好的结果。虽然群体规模更大时,也有较好的参数群,但是计算时间太长且内存消耗太大。本发明认为群体规模N=30,选择保留数K=3是最佳参数值。
参数选择实验二是在参数选择实验一的结论上进行,即将群体规模N,选择保留数K分别固定为30和3,改变杂交率Pc,变异率Pm,从而找出这两个参数的最优值。这里最大遗传代数设为2000。
表6.参数选择实验二
 No与表5相同   Gap   Pc   Pm   Score   T   Select blocks
 1   10   0.1   0.005   0.7545   1   5   9   11   1   2   12   16   1   4
 2   20   0.15   0.005   0.7775   3   4   8   9   3   9   10   12   1   4
 3   39   0.15   0.01   0.7799   1   3   5   9   1   9   12   16   1   4
 4   58   0.2   0.005   0.7687   1   5   8   9   1   8   10   14   3   4
 5   40   0.2   0.01   0.7783   V   1   2   5   9   1   9   10   12   1   4
 6   45   0.2   0.015   0.7769   2   3   5   9   6   9   10   12   1   4
 7   22   0.25   0.005   0.7810   2   3   8   9   1   9   10   16   3   4
 8   113   0.25   0.01   0.7754   V   1   2   5   9   1   9   10   12   1   4
 9   50   0.25   0.015   0.7826   V   1   2   5   9   9   10   12   14   1   4
 10   601   0.25   0.02   0.7766   V   1   2   5   9   1   9   10   12   1   4
 11   40   0.3   0.005   0.7797   1   2   6   9   1   10   12   14   1   4
 12   48   0.3   0.01   0.7743   1   2   5   9   6   9   10   16   3   4
 13   60   0.3   0.015   0.7902   V   1   2   3   9   1   9   10   12   1   4
  14     815  0.3  0.02  0.7763   V   1   2   5   9   1   8   9   10   1   4
  15     1782  0.3  0.025  0.7816   V   1   2   3   9   1   9   10   12   1   4
  16     32  0.35  0.005  0.7687   4   8   9   10   1   10   15   16   2   4
  17     33  0.35  0.01  0.7765   V   1   2   3   9   1   9   10   12   1   4
  18     59  0.35  0.015  0.7781   1   2   3   9   9   10   12   16   3   4
  19     1161  0.35  0.02  0.7797   V   1   2   5   9   1   8   9   10   1   4
  20     2000  0.35  0.025  0.7815   1   2   3   9   1   9   10   12   1   4
  21     2000  0.35  0.03  0.7797   1   2   5   9   1   9   10   12   1   3
  22     50  0.4  0.005  0.7737   1   4   8   9   1   8   9   16   3   4
  23     83  0.4  0.01  0.7771   1   3   8   9   1   6   12   16   1   4
  24     23  0.4  0.015  0.7875   1   3   8   9   1   3   9   10   1   4
  25     997  0.4  0.02  0.7767   V   1   2   3   9   1   9   10   12   1   4
  26     2000  0.4  0.025  0.7760   1   2   8   9   1   9   10   16   1   4
  27     936  0.4  0.03  0.7813   V   1   2   3   9   1   9   10   12   1   4
  28     2000  0.4  0.035  0.7725   1   2   3   9   1   9   10   12   1   4
  29     19  0.45  0.005  0.7691   1   7   8   9   3   9   14   16   1   4
  30     145  0.45  0.01  0.7816   V   1   2   3   9   1   9   10   12   1   4
  31     28  0.45  0.015  0.7762   1   2   5   9   1   6   8   10   1   4
  32     310  0.45  0.02  0.7752   V   1   2   3   9   1   9   10   12   1   4
  33     173  0.45  0.025  0.7770   V   1   2   3   9   1   9   10   12   1   4
  34     2000  0.45  0.03  0.7765   1   2   5   9   1   8   9   10   1   4
  35     2000  0.45  0.035  0.7759   1   2   3   9   1   9   10   12   1   4
  36     2000  0.45  0.04  0.7787   1   2   3   9   1   9   10   16   3   4
  37     77  0.5  0.005  0.7803   1   5   8   9   1   9   10   12   1   4
  38     51  0.5  0.01  0.7865   1   2   4   9   1   9   12   16   1   4
  39     144  0.5  0.015  0.7827   1   2   3   9   1   9   10   16   1   4
  40     762  0.5  0.02  0.7816   1   2   8   9   1   9   10   16   3   4
  41     1296  0.5  0.025  0.7795   V   1   2   5   9   1   8   9   10   1   4
  42     2000  0.5  0.03  0.7801   1   2   3   9   1   9   10   12   1   4
  43     2000  0.5  0.035  0.7797   2   3   5   9   1   8   9   10   2   4
  44     2000  0.5  0.04  0.7756   1   2   5   9   1   9   10   14   3   4
  45     2000  0.5  0.045  0.7787   1   2   3   9   1   9   10   16   3   4
  46     32  0.55  0.005  0.7789   3   5   8   9   6   9   10   14   1   4
  47     97  0.55  0.01  0.7831   V   1   2   3   9   1   8   9   12   1   4
  48     33  0.55  0.015  0.7770   1   3   8   9   9   10   11   12   1   4
  49     209  0.55  0.02  0.7816   V   1   2   3   9   1   9   10   12   1   4
  50     754  0.55   0.025   0.7816  V  1  2  3  9 1  9  10  12  1  4
  51     2000  0.55   0.03   0.7718  1  2  5  10 1  9  10  16  1  4
  52     2000  0.55   0.035   0.7791  5  6  8  9 1  9  10  16  2  3
  53     2000  0.55   0.04   0.7854  1  2  3  9 1  9  10  12  1  4
  54     2000  0.55   0.045   0.7722  1  2  3  9 1  9  10  15  3  4
  55     11  0.6   0.005   0.7751  1  4  5  9 1  7  9  10  1  4
  56     131  0.6   0.01   0.7832  V  1  2  5  9 1  9  10  12  1  4
  57     191  0.6   0.015   0.7778  V  1  2  3  9 1  8  9  10  1  4
  58     84  0.6   0.02   0.7815  2  4  5  9 1  9  10  14  1  4
  59     421  0.6   0.025   0.7797  V  1  2  5  9 1  8  9  10  1  4
  60     2000  0.6   0.03   0.7755  1  2  5  9 1  9  10  16  1  4
  61     2000  0.6   0.035   0.7819  1  2  3  9 1  8  9  12  1  4
  62     2000  0.6   0.04   0.7757  1  4  8  9 1  9  10  15  2  4
  63     2000  0.6   0.045   0.7851  1  2  5  9 6  9  10  12  1  4
  64     36  0.65   0.005   0.7800  2  5  7  9 1  6  10  14  1  4
  65     125  0.65   0.01   0.7767  1  4  8  9 1  9  10  16  3  4
  66     150  0.65   0.015   0.7756  1  2  5  9 1  9  10  16  1  4
  67     394  0.65   0.02   0.7789  V  1  2  5  9 1  8  9  10  1  4
  68     2000  0.65   0.025   0.7761  1  2  5  9 1  8  9  10  1  4
  69     2000  0.65   0.03   0.7783  2  5  6  9 1  2  9  10  2  4
  70     2000  0.65   0.035   0.7760  1  2  8  9 1  9  10  16  3  4
  71     2000  0.65   0.04   0.7765  1  4  8  9 10  12  13  16  3  4
  72     2000  0.65   0.045   0.7765  2  3  4  9 1  10  12  16  3  4
  73     48  0.7   0.005   0.7784  1  2  5  9 1  10  12  16  1  4
  74     41  0.7   0.01   0.7741  1  3  4  9 1  4  8  10  1  4
  75     54  0.7   0.015   0.7801  1  2  5  9 1  10  12  14  1  4
  76     398  0.7   0.02   0.7796  V  1  2  5  9 1  8  9  10  1  4
  77     453  0.7   0.025   0.7734  V  1  2  3  9 1  9  10  12  1  4
  78     2000  0.7   0.03   0.7760  1  2  5  9 2  7  8  10  1  4
  79     2000  0.7   0.035   0.7764  1  5  6  9 1  3  9  10  1  4
  80     2000  0.7   0.04   0.7756  1  2  3  9 1  6  9  10  1  4
  81     2000  0.7   0.045   0.7760  1  2  5  9 2  9  15  16  1  4
  82     26  0.75   0.005   0.7694  1  4  6  9 1  8  14  16  1  4
  83     262  0.75   0.01   0.7870  V  1  2  3  9 1  9  10  12  1  4
  84     314  0.75   0.015   0.7797  V  1  2  5  9 1  8  9  10  1  4
  85     612  0.75   0.02   0.7816  V  1  2  5  9 1  9  10  12  1  4
  86   2000   0.75   0.025   0.7748   1   2   3   9   1   9   10   12   1   4
  87   2000   0.75   0.03   0.7746   1   2   7   8   1   9   10   16   3   4
  88   2000   0.75   0.035   0.7773   1   4   8   9   1   9   10   16   3   4
  89   2000   0.75   0.04   0.7746   1   2   8   9   9   10   12   15   1   4
  90   2000   0.75   0.045   0.7719   2   3   8   11   9   10   12   16   1   4
  91   28   0.8   0.005   0.7805   2   3   4   9   1   9   10   16   3   4
  92   46   0.8   0.01   0.7763   V   1   2   5   9   1   8   9   10   1   4
  93   86   0.8   0.015   0.7826   V   1   2   5   9   1   9   10   12   1   4
  94   1989   0.8   0.02   0.7738   V   1   2   5   9   1   8   9   10   1   4
  95   1471   0.8   0.025   0.7760   V   1   2   5   9   1   8   9   10   1   4
  96   2000   0.8   0.03   0.7769   1   2   5   9   1   9   10   12   3   4
  97   2000   0.8   0.035   0.7792   1   9   10   12   1   9   10   16   2   3
  98   2000   0.8   0.04   0.7774   1   2   7   9   1   9   10   16   1   4
  99   2000   0.8   0.045   0.7815   1   2   5   9   1   9   10   15   1   4
表6的测试结果表明:
(1)能够得到正确结果的集中库(即有″V″项)全部分布在Pm值0.01~0.03范围内,太大或太小都难以收敛到最佳效果.Pm为0.01,0.015,0.02,0.025,0.03的出现次数分别为7,5,10,8,1。
(2)Pc与Pm之间没有明显关系。
(3)Pc小于0.25时,由于交叉几率太小,很难得到最优结果。
(4)Pm大于0.3时,程序难于收敛。
从分析结果可知,Pm值为0.01~0.025,Pc值为0.3~0.5的范围是一个较好的参数群。回过来看,在前面的稳健性测试中,本发明取群体规模N=30,选择保留数K=3,杂交率Pc=0.25,Pm=0.015是一个较佳参数集。
3.4实例
下面是一个关于确定PPARγ作为蛋白靶标获得集中库的实例:
通过前两部分中组合路线的设计以及分子构建单元中分子碎片的选择,本发明选择了三个分子构建单元,反应步数为两步,路线为先A+B,再+C。每个构建单元的分子碎片数目分别为118、88、98个。分子对接中的靶标结构是以PPARγ晶体结构(PDB编号2PRG)为基础得到的。分子对接参数中,“锚”的取向数以及新增加的片断选择的构象数都为50。程序的其它参数均使用默认值。
结果与讨论
PPARγ激动剂的组合空间很大,本发明相应的将组合集中库的规模加大为10×10×10。程序运行434代后结束,结果列于表7。
表7.PPARγ激动剂的最优集中库组成
  Building Blocks of optimal focus library组成最优集中库所选择的结构单元
  A     1     4     6   40   48   50   51   63   64   114
  B     6     8     14   14   19   20   23   38   60   74
  C     6     12     13   14   21   33   43   58   71   75
本发明通过对集中库的组成分析发现,在极性头A部分,最重要的是有能形成氢键的亲水基团。分子碎片1就是TZD头(噻唑烷二酮),它的两个氧原子和氮原子都能与受体形成氢键。其它碎片也具有这种结构特征。关于硝基头、羧基头以及TZD的类似结构这里都出现过。结构式5中的A是指头部与中间部分之间的连接位点(下同)。
结构式5
中间部分B主要是起连接头尾的作用。从晶体结构可知,受体的此部分是一个扁平的通道,适合容纳苯环状的近似平面的刚性结构。集中库选用的分子碎片部分是含苯环的结构;有些是含硫的五元杂环。结构式6中,分子碎片38和60是一对对映异构体,连接位点的碳原子具有手性。但两者同时入选,说明此处对手性的要求不高。两者具有一个长链烷基,从分子对接的构像来看,它伸入一个在疏水通道相反位置的受体狭长空腔中,增大了与受体之间的结合能。结构式6中的Q是指尾部与中间部分之间的连接位点(下同)
结构式6
疏水尾C部分的差异性最大,其共同点是具有疏水性的芳香环。但也有如结构式7中分子碎片58那样氢键受体,在分子对接中可能会引起构象反转,即尾部进入亲水口袋位置。
Figure C20041005310200362
Figure C20041005310200371
结构式7
在分析最优集中库中分子碎片的极性头部分,本发明找到了一个效果较好的极性头(48)。含有这个极性头的分子DC-14在分子水平的测试中有较高的活性(见表8),。在对疏水尾的分析中,也发现含三个全新结构尾部的化合物具有很高活性,其中DC-E15、DC-E57的活性与阳性对照物GI262570相当,具体测试数据见表8。细胞水平的测试也显示这几个化合物具有降血糖活性和促进脂肪细胞分化的能力。
化合物   DC-14   DC-E15 DC-E57 DC-E86
活性(Activity)抑制常数(Ki)   4.7×10<sup>-7</sup>   有效浓度(EC)≈5×10<sup>-8</sup> 有效浓度(EC)≈5×10<sup>-8</sup> 5.8×10<sup>-7</sup>
以上结果充分说明组合集中库程序在对PPARγ激动剂的设计是有效、可靠的。对应用组合集中库程序发现的一些结构新颖的PPARγ激动剂正在合成中,可能会寻找到活性更好的结构新颖的PPARγ激动剂。
4.整体评述
通过系统测试和应用演算实例研究说明,本发明将遗传算法与组合化学方法相结合的组合集中库设计与优化的方法,可以用于基于大分子靶标三维结构的全新药物设计研究,为组合化学和计算机辅助药物设计在药物研究中的应用提供了新的方法。
本发明的基于生物大分子三维结构的计算机辅助组合化学集中库的设计与优化方法并通过演算实例的运行结果说明,本发明所编制的程序基本实现组合集中库的设计功能,完成程序原理框图中的主要各项功能,并能准确,高效的从整个组合化学空间中搜索出最优子空间。同时,运行结果具有良好的重现性和可靠性。利用本发明的虚拟组合化学集中库,可以很好的优化用于组合的分子碎片的选择,大大缩小实际合成的组合化学集中库的规模,提高发现优秀先导化合物的几率,降低成本。
本发明采用了面向对象方法和模块化设计,具有良好的扩充性。

Claims (7)

1.一种组合化学集中库设计与优化方法,是对一种虚拟组合化学集中库软件包的设计、建立与评价优化的方法,其特征在于方法步骤包括:
<1>首先设计以靶标为基础的虚拟组合初步选库,包括:确定组合合成针对的靶标蛋白;设计组合合成路线,挑选组合构建单元;再选定组合合成中的各基本构建单元的单元构件集合;
<2>第二步根据上述的设计,建立虚拟组合初步筛选库,包括:依据十六大类固相合成反应,从指定构造单元中读取指定的单元,构件相应的虚拟组合初步筛选库;然后对获得的虚拟组合初步筛选库中的分子构象采用分子力场及单纯形法与共轭方向法相结合的空间搜索算法进行优化;
<3>第三步对上述建立的虚拟组合初步筛选库进行评价及其优化,包括:首先建立包括建立分子活性评价模块、建立分子类药性评价模块、建立分子多样性评价模块以及建立不良的药物动力学性质或不适宜的毒性反应评价模块的评价体系;然后采用遗传算法对虚拟组合初步筛选库的化合物进行优化。
2.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于所说的十六大类固相合成反应,包括:锚反应、氨基成键反应、芳香取代反应,缩合反应,环加成反应、格林尼亚反应、迈克尔加成反应、杂环生成反应、多组分反应、烯烃生成反应、氧化反应、还原反应、非芳香取代反应、保护与脱保护反应、固相有机合成反应和裂解反应。
3.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于建立的分子活性评价模块的评价方法是采用分子对接方法。
4.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于建立的分子多样性评价模块的评价方法是采用结构多样性的描述法,选用含有分子极化表面积参数的40种描述符。
5.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于建立的分子类药性评价模块的评价方法选择包含分子结构比率描述符的正辛醇/水分配系数、分子量、氢键受体、氢键供体、饱和碳原子数目与除卤素原子之外的重原子数目之比、氢原子数目与除卤素原子之外的重原子数目之比以及分子不饱和度与除卤素原子之外的重原子之间的键数目之比的7种描述符。
6.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于所说的采用遗传算法是选用十进制的编码方法。
7.根据权利要求1所述的组合化学集中库设计与优化方法,其特征在于对虚拟组合化学集中库软件包的设计,建立与评价优化选用C++语言进行操作。
CNB2004100531026A 2004-07-23 2004-07-23 组合化学集中库设计与优化方法 Expired - Fee Related CN100362519C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100531026A CN100362519C (zh) 2004-07-23 2004-07-23 组合化学集中库设计与优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100531026A CN100362519C (zh) 2004-07-23 2004-07-23 组合化学集中库设计与优化方法

Publications (2)

Publication Number Publication Date
CN1725222A CN1725222A (zh) 2006-01-25
CN100362519C true CN100362519C (zh) 2008-01-16

Family

ID=35924693

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100531026A Expired - Fee Related CN100362519C (zh) 2004-07-23 2004-07-23 组合化学集中库设计与优化方法

Country Status (1)

Country Link
CN (1) CN100362519C (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131391B (zh) * 2006-08-24 2011-07-20 中国科学院上海药物研究所 基于分子亲电矢量和扩展支持向量机的基因毒性概率预测方法
CN101329698B (zh) * 2008-07-31 2010-06-16 四川大学 基于药效团模型的全新药物分子构建方法
CN101916330B (zh) * 2010-08-06 2012-06-20 辽宁大学 一种以Keap1为靶点的新型防癌抗癌药物的虚拟筛选方法
CN102117370B (zh) * 2011-03-25 2012-05-30 西安近代化学研究所 基于mol文件格式的氮杂环含能化合物虚拟合成的方法
CN102663249B (zh) * 2011-04-11 2015-11-25 闫京波 采用多维矩阵参照目标化合物进行药物构架化合物设计的方法及其应用
WO2012139421A1 (zh) * 2011-04-11 2012-10-18 Yan Jingbo 多维矩阵用于药物分子设计的应用及药物分子设计方法
CN102646171B (zh) * 2011-04-11 2014-12-10 闫京波 多维矩阵用于像药型化合物分子设计的应用及像药型化合物分子设计方法
CN102663214B (zh) * 2012-05-09 2013-11-06 四川大学 一种集成药物靶标预测系统的构建和预测方法
CN104021265B (zh) * 2013-03-01 2017-02-22 上海交通大学 复杂体系反应通路计算系统及其实现方法
CN104965998B (zh) * 2015-05-29 2017-09-15 华中农业大学 多靶标药物和/或药物组合的筛选方法
CN110875085B (zh) * 2018-09-03 2022-07-29 中国石油化工股份有限公司 高效批量优化分子结构的方法
CN109712685B (zh) * 2019-01-24 2020-11-06 湘潭大学 一种基于多目标进化算法的药方药剂构建方法及系统
CN110379468B (zh) * 2019-07-17 2022-08-23 成都火石创造科技有限公司 一种改进的化学分子式切分方法
CN111402966B (zh) * 2020-03-06 2022-08-19 华东师范大学 一种基于小分子三维结构描述小分子片段属性的指纹设计方法
US20220246238A1 (en) * 2020-05-29 2022-08-04 Shenzhen Jingtai Technology Co., Ltd. Atomic sequence rearrangement method
US20220130487A1 (en) * 2020-06-28 2022-04-28 Shenzhen Jingtai Technology Co., Ltd. Drug virtual screening system for crystal complexes, and method of using the same
CN114664388B (zh) * 2020-12-23 2024-09-13 武汉智化科技有限公司 一种芳香体系亲电取代反应的快速筛选方法
CN114171126B (zh) * 2021-10-26 2024-10-01 深圳晶泰科技有限公司 分子训练集的构建方法、训练方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020045991A1 (en) * 2000-09-20 2002-04-18 Lobanov Victor S. Method, system, and computer program product for encoding and building products of a virtual combinatorial library

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020045991A1 (en) * 2000-09-20 2002-04-18 Lobanov Victor S. Method, system, and computer program product for encoding and building products of a virtual combinatorial library

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
药物分子设计研究进展. 罗小民,蒋华良,沈建华,陈凯先.中国科学院院刊. 2003 *
遗传算法与药物分子设计. 赵善容,蒋华良,刘东祥,陈凯先.化学发展,第9卷第4期. 1997 *

Also Published As

Publication number Publication date
CN1725222A (zh) 2006-01-25

Similar Documents

Publication Publication Date Title
CN100362519C (zh) 组合化学集中库设计与优化方法
Axen et al. A simple representation of three-dimensional molecular structure
Gorse Diversity in medicinal chemistry space
Qing et al. Pharmacophore modeling: advances, limitations, and current utility in drug discovery
Liu et al. SHAFTS: a hybrid approach for 3D molecular similarity calculation. 1. Method and assessment of virtual screening
Yang et al. Concepts and applications of chemical fingerprint for hit and lead screening
US8036867B2 (en) Method and apparatus for analysis of molecular configurations and combinations
Jiang et al. Pharmacophore-based similarity scoring for DOCK
Rhodes et al. CLIP: similarity searching of 3D databases using clique detection
Kumar et al. Application of shape similarity in pose selection and virtual screening in CSARdock2014 exercise
Weil et al. Homology model-based virtual screening for GPCR ligands using docking and target-biased scoring
Agrafiotis et al. Recent advances in chemoinformatics
Rost Protein structure prediction in 1D, 2D, and 3D
Shen et al. A generalized protein–ligand scoring framework with balanced scoring, docking, ranking and screening powers
Xu et al. Retrospect and prospect of virtual screening in drug discovery
Chandak et al. Using machine learning to improve ensemble docking for drug discovery
CA2346235A1 (en) Pharmacophore fingerprinting in qsar and primary library design
Schapin et al. Machine learning small molecule properties in drug discovery
Agrafiotis et al. Ultrafast algorithm for designing focused combinational arrays
Brooijmans Docking methods, ligand design, and validating data sets in the structural genomic era
Gao et al. Co-supervised Pre-training of Pocket and Ligand
James et al. Enhancing chemogenomics with predictive pharmacology
Balakin et al. Rational design approaches to chemical libraries for hit identification
H Lushington et al. Chemical informatics and the drug discovery knowledge pyramid
Lewis et al. Quantification of molecular similarity and its application to combinatorial chemistry

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080116

Termination date: 20130723