CN1886659B - 计算在分子构型的多个分子子集之间亲合力函数的方法和系统 - Google Patents

计算在分子构型的多个分子子集之间亲合力函数的方法和系统 Download PDF

Info

Publication number
CN1886659B
CN1886659B CN2004800351905A CN200480035190A CN1886659B CN 1886659 B CN1886659 B CN 1886659B CN 2004800351905 A CN2004800351905 A CN 2004800351905A CN 200480035190 A CN200480035190 A CN 200480035190A CN 1886659 B CN1886659 B CN 1886659B
Authority
CN
China
Prior art keywords
affinity
configuration
data
molecule
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004800351905A
Other languages
English (en)
Other versions
CN1886659A (zh
Inventor
A·普拉卡什
D·科塔
E·福尔多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verseon Corp
Original Assignee
Verseon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Verseon Corp filed Critical Verseon Corp
Publication of CN1886659A publication Critical patent/CN1886659A/zh
Application granted granted Critical
Publication of CN1886659B publication Critical patent/CN1886659B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N31/00Investigating or analysing non-biological materials by the use of the chemical methods specified in the subgroup; Apparatus specially adapted for such methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N37/00Details not covered by any other group of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06GANALOGUE COMPUTERS
    • G06G7/00Devices in which the computing operation is performed by varying electric or magnetic quantities
    • G06G7/48Analogue computers for specific processes, systems or devices, e.g. simulators
    • G06G7/58Analogue computers for specific processes, systems or devices, e.g. simulators for chemical processes ; for physico-chemical processes; for metallurgical processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明确定用于分子互接计算的计算单元,以及取决于操作复杂性的计算单元数量和数据路径带宽。数据应需要抵达下游计算单元,由此提高了计算单元的利用率。计算单元是专门进行一类计算的硬件。为了进行分子互接计算,需计算分子子集或分子子集间组合的函数。可确定的结果包括分子子组之间的匹配程度,该匹配的亲和力和能量等。亲合力可包括原子间能量,键能,某类力场中的原子能等等。本发明的计算可用于模拟和/或预测分子间相互作用的可能性。

Description

计算在分子构型的多个分子子集之间亲合力函数的方法和系统
交叉引用到相关申请
参照有关应用
涉及本专利申请的优先是未授权的美国专利,其专利申请号为60/511,387,其申请名为:“分子嵌入计算优化硬件系统”,申请日为2003年10月14日,这一专利申请内容都包含在本专利申请内容之中。
本专利内容涉及到如下授权申请/专利:
美国专利号————[美国专利申请号————,律师签号为021986-000710US,申请名为:“分子原子的方法和仪器”,申请人Adaja等人(本文以后简称“Adaja I”)。
上述专利或申请所披露的所有内容全部都包含在本专利之中
技术领域
通常本发明涉及到生物信息,蛋白质组学,分子模型,计算机辅助分子设计,以及更特殊的计算机辅助药物设计(CADD)和分子组合计算机模拟模型。
背景技术
对常规药物研发过程及其局限性的阐述,有助于理解本发明专利。
一种新药对生物体上治疗或治愈作用的发现是一个漫长且具有昴贵代价的过程,每一种药物试验通常需12年,耗费8亿甚至10亿美元去完成所有药物试验。
药物研发过程的目的是为了识别并找出一种化合物或配体生物分子特征,如化合物影响一个或多个其它生物组织中生物分子(即一种药“靶”),通常是生物聚合物通过潜在分子相互作用或者组合实现,这里所说的生物聚合物是指一个大分子,包含有一个或多个蛋白质,核苷酸(DNA或RUA),酞链或核酐酸系列或者任何这个组合的部分体。生物分子是指一种化学体,它包含有一个或多个生物聚合物、碳水化合物、激素或其它分子,无机物或有机物,它包含有但不仅仅限于合成的、医用的、药物类,或者是一种天然化合物,也可能是任何其它的组合。
药靶是典型的,它被认为是同疾病相关的靶蛋白质或者核酸,它可导致功能、结构或化学活性的改变,用于治疗病人的疾病。另一方面,这种药靶可在致病体中找到,如病毒、细菌或者寄生虫,当它们被药物作用时,将影响到被感染源的生存或活性。而且药靶可在有缺陷或有害细胞如癌细胞中找到。药靶是抗原体,其它环境因素可导致过敏反应或其它被免疫或生物反应。
典型配体是一种小分子药物或化合物,具有药物特征,如药效、低毒性、膜通透性、溶解性、化学/代谢稳定性等,另一方面,配体是生物制剂,如蛋白基注射剂或基于肽的药物,甚至全蛋白制剂。配体是药靶的底物,可同药靶共价结合在一起或者是蛋白质的一个组成部分,如蛋白质的第二结构组成部分,或者靠近或包括活性区蛋白质处,也可是蛋白质四级结构的一部分等。
除非特别指明,在以下讨论中,一个(潜在)分子组合包含一个配体或一个靶位,它们是不同的化学体,配体通常为化合物,药靶是生物蛋白(突变体或野生型)。值得注意的是将来随着基因治疗及致病微生物的发展,核酸DNA或RNA)作为药靶的使用频率将逐年增加。在合适的水溶液环境中药靶和配体相互作用时分子组合物是两者之间的复合状态。而潜在的分子组合体是指发生可能性很低的一个复合状态,在通常状态可能或不可能发生。
药物研发工艺本身通常含有四个步骤:(1)药靶筛选平台;(2)先导化合物筛选和优化;(3)预临床试验;(4)临床试验和批准。
药靶筛选平台步骤要选定一个或多个对病症有作用的药靶,它通常需要2年半的时间,药靶筛选平台结论包含有药靶分子在组织中存在或作用,可产生一些效应,如起始,加速,或导致需要治疗的病症,通常自然结合物或底物可通过实验方法决定。
典型的先导化合物筛选工艺包括药物化合物的识别,如配体可同靶位分子结合并通过药靶功能团激活,灭活,催化,抑制改变药靶的功能,在这一过程中,先导化合物可视为用于药物工艺的合适候选配体。先导化合物的优化是对先导化合物化学和结构的细化调节,以提高同药靶结合亲合力和选择性,并处理有毒性,溶解性,代谢性。先导化合物筛选和优化通常需要3年完成,并得到一个或多个先导化合物以用于下一步试验。
在先期临床试验中,生物测试和动物模型要通过不同的药物动力学参数试验挑选出先导化合物,这些参数包括药物吸收,分散,代谢,清除,毒性,负作用及其用量。预临床试验通常需要1年的时间,这以后临床试验及其批准需要6至8年或更多的时间,所选用的药物用在人身上要求安全且有效。
合理化药物设计需采用药靶结构及其配体信息,以作为有效先导化合物筛选和优化设计基准。结构性药物设计通常采用药靶三维模型。对于药靶蛋白质或核酸,其结构可通过X射线结晶法/NMR或其它测量方法得出,也可从同系模型、蛋白质图形、域保持及蛋白质折叠或核蛋白质同系物计算模型得出。就许多模相关的药靶蛋白质而言,如GRCRS和离子膜,膜建立结构通常被认为是很有效的,而配体结构也可采用相同方式得出,如果所提供的配体不是生物聚合物,依据基本物理和化学特征,从头开始通过2-D化学方式合成出。
合理的药物设计可采用任何计算方法实现具体化,这些计算方法包括药靶-配体相互作用及其组合模型,先导化合物优化以及药物拥有的生物计算预测。在药物设计中使用计算模型可有效避免在生物实验室试验或其它试验中所需要的正常时间和费用,缩短药物研发时间,并提高研发着重点和有效性。
先导化合物筛选中,药物靶-配体分子组合计算模型包括大量的计算机筛选化合物库(如库筛选),或者程序虚拟产生并贮存为一个或多个化合物结构数据库或通过合成化学和有机合成,以同靶分子相关的生物活性计算预期(或类似测试值)作为参照基点,采用计算机方法将筛选的部分配体排序。
本文中,结合模式是一个潜在分子组合的3-D分子结构,它是在或接近最小能量(也就是有最大结合亲合力)的结合状态,其中结合能是指形成潜在分子组合体的分子体系自由能的变化(有时结合能可以同结合自由能相互交换使用或用概念上相反配体的亲合力),对于配体和靶位而言,就是从非结合状态到一个(潜在)结合状态的转变。有时系统姿态也用于指定的结合模式,自由能也指焓和熵效应,它们是结构原子和分子键相互物理作用(也就是原子间和原子内的相互作用)以及同它们周围环境相互作用的结果,自由能的范例是Gibbs自由能,它是在平衡统计机原理最稳定的。
通常,给定的药靶——配体对最佳结合自由能同潜在分子配合物的组合或形成可能性是直接相关的,其中潜在分子配合物在化学平衡的两分子之间。虽然实际上结合自由能描述的是(假定)复合结构的一个整体,而不仅仅是一个结合模。而在计算模中,自由能的变化被假定是由对应于最小能量的单一结构决定的。对于紧密结合键(PK~0.1-10nM)是确定无误的,但对于弱结合键(PK~0.1-100nM),则存在问题。主要结构要考虑到结构模式。在一般情形中,就能量而言,当相关系统状态减弱时,有必要考虑到不止一个结合模式。
亲合力对于药物研发和合理化药物设计是关键的。因为蛋白质和药靶分子相互作用有助于证实候选药物能实现这一目标,其中蛋白质是生物工艺或路径的“一部分,生物工艺或路径的改进可寻找到候选药物;而且结合模式一经决定,就可更好地了解药物作用在靶位上,因此就药靶而言,为了提高它的药效,结合特异性(就其它药靶生物聚合物而言)以及其它化学和代谢性,可进一步改善药靶的一个或更多的性能。
现已有多种实验方法测量并估算靶分子和配体间的亲合力。首先药靶可首先被分离出,在体外同配体混合,进行大量生物功能分析并批量筛选,这一方法在大多数时候是有效的,此时药靶易于分离,配体易于制备,分子相互作用易于测量;但存在的问题是当药靶不易分离,即分离会干扰生物或疾病过程,配体难以合成出足够多的数量,或者对特殊药靶或配体了解不清时,在这一过程中,需要做成千上百万的实验寻找合理的药靶和配体组合。这使得实验方法应用不切实际。
一方面,已有大量尝试解决这一瓶颈问题,首先根据靶位(甚至是蛋白质家族相关靶位)的不同化学和生物性能以及一个或多个已知靶位结合物或底物,减少实验组合数量,但在很多场合,这虽然是不切实际并且代价昴贵。为了替代实验室中实际组合和测量实验结果,另一途径是在两个或多个原子之间采用计算机模拟或特征化分子作用(也就是计算机分子组合模型)。评估分子组合和相互作用的计算方法通常可应用于合理性药物设计的一个或多个步骤中,无论是依据结构或配体还是兼而有之。
在给定的药靶-配体对中,计算中模拟潜在分子组合的特性或可能性,实际结合模计算预测通常要通过两部分完成:(a)“嵌入”,其中计算系统预测配体和药靶的优化结合模;(b)“评估”,计算系统改善结合模的结合亲合力。在库筛选中,就药靶分子而言,评估也可用于预测一个配体对另一个配体相对结合亲合力,因此可优化配体或设计一个结合模的可能性。
嵌入涉及一个寻找过程或函数优化算法,无论是随机还是非随机,可找到一个或多个有更好亲合力的系统,评估可涉及到更细化的亲合力函数的评价,这一评价可按照一个经验的、分子机理的、量子机理的或计算的方式或多个组合方式进行,也就是评价函数。任何评价函数可结合使用并形成一个可靠的连续评估模式,它含有不同的计算公式。实际上,在今天的计算药物设计中有很多不同的嵌入算法和评估模式。
无论采用何种计算方法,在计算的复杂性和计算机资源量之间,皆存在固有的缺陷,其中计算的复杂性包含基本的分子模型和本质数值算法,计算机资源数量(时间、CPU数量、模拟量)必须分配给每一个分子组合,例如,两分子由水分子包围的复杂分子动态模拟(MD)包含一万亿次计算步骤,它可实现潜在分子组合模拟的高准确性,但其结果的计算耗费(也就是时间和计算机功率)太高,这样即使使用几个分子组合,这些模拟也难以操作。另一方面采用简化的模型以及易出错的模型捷径和近似法去描述分子相互作用,可产生更多的可接受的计算费用,但必须减弱模型精度和降低预测效果。
本发明涉及一种计算方法,可有效精确测定分子相互作用或实现分子相互作用的特征化。分子相互作用(计算嵌入和评价方式只是一个子系统)的测量或特征化,可涉及到潜在分子化合的形成或可能性的预测、两个或多个分子结合能或结合亲合力的评估,以及药靶-配体对结合模的评估(甚至是可以增加可挑选的模)或者确定以预测靶分子生物活性为基准的一组配体化先权。
通常,结合亲合力(或其等价物)将作为目标数学函数(如亲合力函数),这一函数可很好描述靶位和配体分子之间相互作用而产生的潜在物理和化学特征。虽然还存在其它函数形式(其它一些形式将在下文中详细描述),亲合力函数是用于分子相互作用时定性或定量的一种测量方式。
总之,药物研发过程要求又快又准地判定最优状态或构型,也就是两个分子或部分分子的结合模或结合能。在药物研发过程中,先导化合物筛选和优化过程中,其有效性尤其是重要的,对于数百万靶位一配体分子组合中,在建议有希望的候选药进一步分析之前要求精确预测亲合模和亲合力。要求系统更有效以及分子组合计算模型更精确性,这一点是很清楚的。
参考文献及先前的技术
涉及本发明专利的先前技术已大量引用,现综述总结如下:
Draws[1]综述了药物计算过程中常规进程,在文献[2]中Abagga和Totror列举了大量嵌入和评价及其应用。Lamb等人[3]提出了设计、嵌入对蛋白质系的多重组合库的筛选方法。最后,Waskowycz等人[4]描述了通过将配体分组配给指定计算机,采用多重计算机和加快大型配体库对特殊靶的筛选。
[1]J.Drews,“Drug Discovery:A Historical perspective”,Science,287,1960-1964(2000).
[2]Ruben Abagyan and Maxim Totrov,“High-throughput docking for leadgeneration”,Current Opinion in Chemical Biology,Vol.5,375-382(2001).
[3]Lamb,M.L.,Burdick,K.W.,Toba,S.,Young,M.M.,Skillman,A.G.et al.,“Design,docking,and evaluation of multiple librariesagainst multiple targets”,Proteins,Vol.42,296-318(2001).
[4]Waszkowycz,B.,Perkins,T.D.J.,Sykes,R.A.,Li,J.,“Large-scale virtual screening for discovering leads in the postgenomic era”,IBM Systems Journal,Vol.40,No.2(2001).
已有大量的软件工具用于嵌入模拟的实例,这些方法涉及大范围的计算机技术,这些应用包括:
(a)硬基体模式匹配算法,它是基于表面相互作用,运用几何分块,姿态簇和图形匹配方法;
(b)分段法:包括增加结构法或放入和加入操作法;
(c)随机优化法:包括运用Monte Carlo,同步退火或遗传法(或模拟法)
(d)分子动态模拟法;
(e)以及衍生出来的交叉方法。
早期嵌入软件工具是一种称作DOCK的图形硬体模式匹配算法[5][6][7],1982年后在UCSF发展为v1.0版本,现已到v5.0版本(包括增加结构法),另一个图形硬体模式匹配算法包括CLIX[8](转为使用GRID[9]),FLOG[10]和LIGIN[11]。
[5]Shoichet,B.K.,Bodian,D.L.and Kuntz,I.D.,“Molecular dockingusing shape descriptors”,J Comp Chem,Vol.13 No.3,380-397(1992).
[6]Meng,E.C.,Gschwend,D.A.,Blaney,J.M.,and I.D.Kuntz,“Orientational sampling and rigid-body minimization in moleculardocking”,Proteins:Structure,Function,and Genetics,Vol.17,266-278(1993).
[7]Ewing,T.J.A.and Kuntz,I.D.,“Critical Evaluation of SearchAlgorithms for Automated Molecular Docking and Database Screening”,J.Computational Chemistry,Vol.18 No.9,1175-1189(1997).
[8]Lawrence,M.C.and  Davis,P.C.;“CLIX:A Search Algorithm forFinding Novel Ligands Capable of Binding Proteins of Known Three-Dimensional Structure”,Proteins,Vol.12,31-41(1992).
[9]Kastenholz,M.A.,Pastor,M.,Cruciani,G.,Haaksma,E.E.J.,Fox,T.,“GRID/CPCA:A new computational tool to design selectiveligands”,J.Medicinal Chemistry,Vol.43,3033-3044(2000).
[10]Miller,M.D.,Kearsley,S.K.,Underwood,D.J.and Sheridan,R.P.,“FLOG:a system to select’quasi-flexible’ligands complementaryto a receptor of known three-dimensional structure”,J.Computer-AidedMolecular Design,Vol.8 No.2,153-174(1994).
[11]Sobolev,V.,Wade,R.C.,Vriend,G.and Edelman,M.,“Molecular docking using surface complementarity”,Proteins,Vol.25,120-129(1996).Other rigid-body pattern-matching docking software toolsinclude the shape-based correlation methods of FTDOCK[12]and HEX[13],the geometric hashing of Fischer et al.[14],or the pose clustering ofRarey et al.[15].
[12]Aloy,P.,Moont,G.,Gabb,H.A.,Querol,E.,Aviles,F.X.,and Sternberg,M.J.E.,“Modeling Protein Docking using ShapeComplementarity,Electrostatics and Biochemical Information,”Proteins:Structure,Function,and Genetics,Vol.33,535-549(1998).
[13]Ritchie,D.W.and Kemp.G.J.L.,“Fast Computation,Rotation,and Comparison of Low Resolution Spherical Harmonic MolecularSurfaces”,Proteins:Structure,Function,and Genetics,Vol.39,178-194(2000).
[14]Fischer,D.,Norel,R.,Wolfson,H.and Nussinov,R.,“Surface motifs by a computer vision technique:searches,detection,andimplications for protein-ligand recognition”,Proteins,Vol.16,278-292(1993).
[15]Rarey,M.,Wefing,S.,and Lengauer,T.,“Placement ofmedium-sized molecular fragments into active sites of proteins”,J.Computer-Aided Molecular Design,Vol.10,41-54(1996).
通常,硬基体模式匹配算法皆假定靶位和配体都是硬性的(即不是弹性的),因此适合于嵌入小硬分子(或分子片段)到单一蛋白质中,并可确定几乎是硬体活性部位。因此这种级别的嵌入工具可适用于从头开始进行配体设计,组合块设计,或者从每个配体含有多重类似体的分子库中直接进行硬基体筛选。
增加结构法是以嵌入软件工具为基础的算法,它包括来自Tripos(EHBL许可)的FlexX[16][17],Hammerhead[18],DOCK V4.0[6](作为一种选择),Leach等人提出的缓和反馈算法[19],再次配体设计中采用增加结构法的程序包括LuDI(来自Accelrys)[20]和GrowMol[21],嵌入软件工具是基于DesJarlais等人提出的放入加入算法[22]。
[16]Kramer,B.,Rarey,M.and Lengauer,T.,“Evaluation of theFlexX incremental construction algorithm for protein-ligand docking”,Proteins,Vol.37,228-241(1999).
[17]Rarey,M.,Kramer,B.,Lengauer,T.,and Klebe,G.,“A FastFlexible Docking Method Using An Incremental Construction Algorithm”,J.Mol.Biol.,Vol.261,470-489(1996).
[18]Welch,W.,Ruppert,J.and Jain,A.N.,“Hammerhead:Fast,fully automated docking of flexible ligands to protein binding sites”,Chemical Biology,Vol.3,449-462(1996).
[19]Leach,A.R.,Kuntz,I.D.,“Conformational Analysis ofFlexible Ligands in Macromolecular Receptor Sites”,J.Comp.Chem.,Vol.13,730-748(1992).
[20]Bohm,H.J.,“The computer program LUDI:a new method for thede novo design of enzyme inhibitors”,J.Computer-Aided Molecular Design,Vol.6,61-78(1992).
[21]Bohacek,R.S.and McMartin,C.,“Multiple Highly DiverseStructures Complementary to Enzyme Binding Sites:Results of ExtensiveApplication of a de Novo Design Method Incorporating CombinatorialGrowth”,J.American Chemical Society,Vol.116,5560-5571(1994).
[22]DesJarlais,R.L.,Sheridan,R.P.,Dixon,J.S.,Kuntz,I.D.,and Venkataraghavan,R.,“Docking Flexible Ligands to MacromolecularReceptors by Molecular Shape”,J.Med.Chem.,Vol.29,2149-2153(1986).
增加结构法可用于从弹性配体到硬靶位分子的模式嵌入,并保持有较好活性特征。当对一个或更多的靶位筛选弹性配体时,就可应用这一算法,同其它随机和优化算法对比,这一算法有较少的计算强度,其结果准确率也优。但是即使是Fex X也占用小于1~2分钟数量级的时间处理靶位-配体组合,因而依据数据库的容量大小(也就是1千万或更多的化合物)计算任务依旧繁重,增加结构法算法通常需选用一个或更多评价函数评估,并补入不同的系统姿态。最近,Flex X版本已变为Flex E[23]。
[23]Claussen,H.,Buning,C.,Rarey,M.,and Lengauer,T.,“FlexE:Efficient Molecular Docking Considering Protein Structure Variations”,J.Molecular Biology,Vol.308,377-395(2001).
以随机优化为基础的计算嵌入软件包括ICM[24](来自MolSoft),GLIDE[25](来自Schrodinger),以及LigandFit[26]来自Accelrys),上述这些软件是基于修正的Monte Carlo技术,AutoDock v.2.5[27](来自ScrippsInstitute),它是基于模拟退火法,而其它基于基团或模拟的算法包括GOLD[28][29],DARWIN[30]和AutoDock v.3.0[31](也来自Scrtpps)。
[24]Abagyan,R.A.,Totrov,M.M.,and Kuznetsov,D.N.,“Biasedprobability Monte Carlo conformational searches and electrostaticcalculations for peptides and proteins”,J.Comp.Chem.,Vol.15,488-506(1994).
[25]Halgren,T.A.,Murphy,R.B.,Friesner,R.A.,Beard,H.S.,Frye,L.L.,Pollard,W.T.,and Banks,J.L.,“Glide:a new approach for rapid,accurate docking and scoring.2.Enrichment factors in databasescreening”,J Med Chem.,Vol.47 No.7,1750-1759,(2004).
[26]Luty,B.A.,Wasserman,Z.R.,Stouten,P.F.W.,Hodge,C.N.,Zacharias,M.,and McCammon,J.A.,“Molecular Mechanics/Grid Method forthe Evaluation of Ligand-Receptor Interactions”,J.Comp.Chem.,Vol.16,454-464(1995).
[27]Goodsell,D.S.and Olson,A.J.,“Automated Docking ofSubstrates to Proteins by Simulated Annealing”,Proteins:Structure,Function,and Genetics,Vol.8,195-202(1990).
[28]Jones,G.,Willett,P,and Glen,R.C.,“MolecularRecognition of Receptor Sites using a Genetic Algorithm with aDescription of Desolvation”,J.Mol.Biol.,Vol.245,43-53(1995).
[29]Jones,G.,Willett,P.,Glen,R.C.,Leach,A.,and Taylor,R.,“Development and Validation of a Genetic Algorithm for FlexibleDocking”,J.Mol.Biol.,Vol.267,727-748(1997).
[30]Taylor,J.S.and Burnett,R.M.,Proteins,Vol.41,173-191(2000).
[31]Morris,G.M.,Goodsell,D.S.,Halliday,R.S.,Huey,R.,Hart,W.E.,Belew,R.K.and Olson,A.J.,“Automated Docking Using aLamarckian Genetic Algorithm and an Empirical Binding Free EnergyFunction”,J.Comp.Chem.,Vol.19,1639-1662(1998).
随机优化方法也可应用于从弹性配体到靶的模式嵌入。它们通常采用亲合力函数分子机理公式并用选用不同的算法以寻找到一个或更多合适的系统能量最小值。这些通常要有更大的计算强度,甚至比增加结构法有更大的计算强度。它们本质是上随机的,不同的使用或模拟也经常导致不同的预测结果,传统上大多数嵌入软件工具采用随机优化,假定靶位是接近硬性的(也就是在活性区氢键供体和受体可旋转),因为不然的话在一定的时间内组合的复杂性显著增加解决问题的难度。
在本文中分子动力学也可用于靶位-配体复合的计算模型中,这所包含的工具是Di Nola等人[32]和Laty等人[16](以及Monte Carlo)提出的。从机理上,分子动力学可从弹性到任意角度模拟蛋白质。另一方面,它们也要求对许多细节和时间步骤进行评估,并且它们是相当耗时的(每一个药靶-配体组合耗用数小时甚至几天)。它们也要求使用者参与对直接通道的选择。在先导化合物发明过程中,分子动态模拟的运用非常适合于提供少量候选药物。
[32]Di Nola,A.,Berendsen,H.J.C.,and  Roccatano,D.,“Molecular Dynamics Simulation of the Docking of Substrates toProteins”,Proteins,Vol.19,174-182(1994).
复合方式可首先采用硬体模式匹配技术应用于快速筛选低能量配体构象,然后采用适应姿态的Monte Carlo扭矩优化技术,最后是在选用的几种配体结构结合一个(潜在)弹性蛋白质活性区采用分子动态精细技术。这种嵌入软件方法应用例可参阅Wang等人的文献[33]。
[33]Wang,J.,Kollman,P.A.and Kuntz,I.D.,Proteins,Vol.36,1-19(1999).
软件中可运行许多评估函数,可用于评估药靶-配体亲合力,作为每一个库筛选的排序优化考虑不同配体,或对中间嵌入姿态进行排列以检测出结合模式。传统的评估函数包括三种不同方法:(a)经验评价函数;(b)分子机理表述;(c)知识库评价函数或混合方法。
在QSAR研究中,经常应用的线性自由能关系首先采用了衍生的评价函数(应用于药靶-配体组合)。早期应用实例是
Figure G2004800351905D00121
等人[20][34](用于LUDI),其它经典评价系数包括SCORE[35](用于Flex X),ChemScore[36],PLP[37],Fresno[38],and GlideScore v.2.0+[39](由ChemScore修正,GLIDE使用)
[34]H.J.,“The Development of a simple empirical scoringfunction to estimate the binding constant for a protein-ligand complexof known three-dimensional structure”,J.Comput-Aided Mol.Des.,Vol.8,243-256(1994).
[35]Wang,R.,Gao,Y.and Lai,L.,“A new empirical method forestimating the binding affinity of a protein-ligand complex.”,J.Molecular Modeling,Vol.4,379(1998).
[36]Eldridge,M.D.,Murray,C.W.,Auton,T.R.,Paolini,G.V.,and Mee,R.P.,“Empirical scoring functions:I.The development of afast empirical scoring function to estimate the binding affinity ofligands in receptor complexes”,J.Computer-Aided Molecular Design,Vol.11,425-445(1997).
[37]Gelhaar,D.K.,Bouzida,D.;Rejto,P.A.,In“Rational DrugDesign:Novel Methodology and Practical Applications”,Parrill,L.,Reddy,M.R.,Ed.;American Chemical Society:Washington,D.C.,pp.292-311(1999).
[38]Rognan D.,Lauemol ler S.L.,Holm A.,Buus S.,Schinke V.,J.Medicinal Chemistry,Vol.42,4650-4658(1999).
[39]Halgren,T.A.,Murphy,R.B.,Friesner,R.A.,Beard,H.S.,Frye,L.L.,Pollard,W.T.,and Banks,J.L.,“Glide:a new approach for rapid,accurate docking and scoring.2.Enrichment factors in databasescreening”,J Med Chem.,Vol.47 No.7,1750-1759(2004).
一般,经典评价函数包括今天大部分使用的评价函数,尤其是用于本专利中大量化合物库筛选。其基本假定是测定经验能量模式的线性组合,每一个都被相关数值重量相乘,每一个都代表了在主评价方程中一组相互作用单元,这一评价方程是尝试简化分子组合亲合自由能的计算。满足实验结合自由能数据可吸纳数值重量因子,组成一组修正的药靶-配体复合物。
分子机理评价函数首先可在分子模型应用中得以发展,本专利中应用于分子机理力场的软件包括有AMBER[40][41],OPLS[42],MMFF[43]和CHARMM[44],分子机理评价函数实例既包括化学的,也包括能量评价函数,如DOCK v.4.0(基于AMBER[6],用于GOLD的函数[28][29],Auto Dock v.3.0[31](含有经验重量),以及FLOG[10]。
[40]Pearlman,D.A.,Case,D.A.,Caldwell,J.C.,Ross,W.S.,Cheatham III,T.E.,Ferguson,D.M.,Seibel,G.L.,Singh,U.C.,Weiner,P.,Kollman,P.A.AMBER 4.1,University of California,San Francisco(1995).
[41]Cornell,W.D.,Cieplak,P.,Bayly,C.I.,Goulg,I.R.,Merz,K.M.,Ferguson,D.M.,Spellmeyer,D.C.,Fox,T.,Caldwell,J.W.,Kollman,P.A.,“A second-generation force field for the simulation ofproteins,nucleic acids,and organic molecules”,J.American ChemicalSociety,Vol.117,5179-5197(1995).
[42]Jorgensen,W.L.,&Tirado-Rives,J.,J.American ChemicalSociety,Vol.110,1657-1666(1988).
[43]Halgren,T.A.,“Merck Molecular Force Field.I.Basis,Form,Scope,Parameterization,and Performance of MMFF94”,J.Comp.Chem.,Vol.17,490-519(1996).
[44]Brooks,B.R.,Bruccoleri,R.E.,Olafson,B.D.,States,D.J.,Swaminathan,S.and Karplus,M.,“CHARMM:A Program forMacromolecular Energy,Minimization,and Dynamics Calculations”,J.Comp.Chem.,Vol.4,187-217(1983).
一般,分子基理评价函数较接近于应用在许多随机优化嵌入系统的目标函数,这些典型函数要求在一个或多个分子原理动力区不同性能(如电荷、质量、vdW半径,键平衡常数等)具有原子(或化学基团)级参变量。在某种条件下,合适配体参数也可指定用于其它分子模型软件包中,如配体部分电荷指定用于MOPAC[45],AMPAC[46]或AMSOL[47],它们也包括分子内作用(即分子自身能量)和大量的静电相互作用。在某些场合中,为了再现配体-靶位复合物,能量组合也可通过数值重量优化完成。
[45]Stewart,J.J.P.,Quantum Chemistry Program Exchange,Vol.10:86(1990).
[46]Liotard,D.A.,Healy,E.F.,Ruiz,J.M.,and Dewar,M.J.S.,Quantum Chemistry Program Exchange-no.506,QCPE Bulletin,Vol.9:123(1989).
[47]AMSOL-version 6.5.1 by G.D.Hawkins,D.J.Giesen,G.C.Lynch,C.C.Chambers,I.Rossi,J.W.Storer,J.Li,D.Rinaldi,D.A.Liotard,C.J.Cramer,and D.G.Truhlar,University of Minnesota,Minneapolis(1997).
对于液体模型,知识型评价函数可用于平均动力统计机理方法中。这里应用例包括DrugScore[48],PMF[49]和BLEEP[50]。
[48]Gohlke,H.,Hendlich,M.and Klebe,G.,“Knowledge-basedScoring Function to Predict Protein-Ligand Interactions”,J.Mol.Biol.,Vol.295,337-356(2000).
[49]Muegge,I.and Martin,Y.C.,“A general and fast scoringfunction for protein-ligand interactions -a simplified potentialapproach.”,J.Med.Chem.,Vol.42,791-804(1999).
[50]Mitchell,J.B.O.,Laskowski,R.A.,Alex,A.and Thornton,J.M.,“BLEEP -Potential of Mean Force Describing Protein-LigandInteractions II.Calculation of Binding Energies and Comparison withExperimental Data”,J.Comp.Chem.,Vol.20,1165-1176(1999).
通常,知识型评价函数并不要求拆分亲合力函数。但是,它们要求大量使用适宜的分子配合物3-D结构大型数据库。通常,回归分子配合物的已知实验结合亲合力测试数据也常是没必要的。这些方法是基于一个基本假设,两原子之间相互作用越有利,在给定的距离内,相对期望值而言,在大量无序媒介中,其发生越频繁。这些方案有时被称为“反Boltzmann”方案,但实际上,大分子和蛋白质折叠键存在优化的结构,这意味着同距离相关的配对优化分布并不受Boltzmann严格限制。基于其它原子解说符号,引入背心优先的概念也是可能的,如为了近似溶解效应,引入了溶剂溶解表面区域的概念。
复合评价函数也可是一个或多个不同典型函数的复合函数。其中一个函数例子是VALIDATE[51],它是一种分子机理/经验复合函数。其它评价函数的组合也包括有一致评价概念,其中复合函数可用于评估每一个分子组合以及一些满意的决定是基于一组规则或统计准则得出的,如列举排序每一个评价函数(交集基),发生率最高为10%序列,状态有较高的平均序列(平均基)。一个有效的满意评价系统的讨论综述参见Bissantz等人的文献[52]。
[51]Head,R.D.,Smythe,M.L.,Oprea,T.I.,Waller,C.L.,Green,S.M.and Marshall,G.R.,“VALIDATE:A New Method for Receptor-BasedPrediction of Binding Affinities of Novel Ligand”,J.American ChemicalSociety,Vol.118,3959-3969(1996).
[52]Bissantz,C.,Folkers,G.,Rognan,D.,“Protein-based virtualscreening of chemical databases.1.Evaluation of differentdocking/scoring combinations”,J Med Chem,Vol.43,4759-4767(2000).
但是,现有的算法工具没有一种可以适合于药靶-配体分子组合,因为在当今药物研发过程,为确保进行大范围地筛选潜在候选药物,必须有必要的精确和速度。
数学化描述结构和化学信息存在不同的文件版本,这里药靶蛋白质及其复合物化学信息是同结构数据库有关的,这些例子包括pdb,molz(来自Tripos)和SMILES版。
[53]Westbrook,J.and Fitzgerald,P.M.(2003):StructuralBioinformatics,P.E.Bourne and H.Weissig(editors).Hoboken,NJ,JohnWiley & Sons,Inc.pp.161-179.
[54]http://www.tripos.com/custResources/mol2Files/
[55]http://www.daylight.com/dayhtml/smiles/smiles-intro.html
[56]Clark,M.,Cramer,R.D.,Opdenbosch,N.V.,“Validation ofthe General Purpose Tripos 5.2 Force Field”,J.Comp.Chem.,Vol.10,982-1012(1989).
[57]http://www2.chemie.uni-erlangen.de/software/corina/index.html
涉及潜在分子组合形成的全静电场能量计算的讨论内容,可在Gilson等人的文献[59]找到。静电电势计算方法在经典理论范围中有较简单公式,如涉及同距离相关的绝缘函数[59],也有较复杂的函数,如涉及Poissin-Boltzman方程,一秒级,通常为非线性简化偏微分方程。
其它的经典形式可解决静电包括Generalized Born溶液模型为基准的方程[62][63],以及通过增加溶剂接近或碎片体积和描述反应面效应方法[64][65][66],或者采用分子动态模拟精确描述溶剂[67][68][69]中。全量子机理静电相互作用的处理长篇综述可在Labanowksi等人的文献[10]中找到。
[58]Gilson,M.K.,and Honig,B.,“Calculation of the TotalElectrostatic Energy of a Macromolecular System:Solvation Energies,Binding Energies,and Conformational Analysis”,Proteins,Vol.4,7-18(1988).
[59]Mehler,E.L.and Solmajer,T.,“Electrostatic effects inproteins:comparison of dielectric and charge models”ProteinEngineering,Vol.4,903-910(1991).
[60]Holst,M.,Baker,N.,and Wang,F.,“Adaptive MultilevelFinite Element Solution of the Poisson-Boltzmann Equations I.Algorithmsand Examples”,J.Comp.Chem.,Vol.21,No.15,1319-1342(2000).
[61]Nicholls,A.,and Honig,B.,“A Rapid Finite DifferenceAlgorithm,Utilizing Successive Over-Relaxation to Solve Poisson-Boltzmann Equation”,J.Comp.Chem.,Vol.12,No.4,435-445(1991).
[62]Still,W.C.,Tempczyk,A.,Hawley,R.C.and Hendrickson,T.,“A General Treatment of Solvation for Molecular Mechanics”,J.Am.Chem.Soc.,Vol.112,6127-6129(1990).
[63]Ghosh,A.,Rapp,C.S.,and Friesner,R.A.,“A GeneralizedBorn Model Based on Surface Integral Formulation”,J.Physical ChemistryB.,Vol.102,10983-10(1988).Eisenberg,D.,and McLachlan,A.D.,“Solvation Energy in Protein Folding and Binding”,Nature,Vol.31,3086(1986).
[65]Privalov,P.L.,and Makhatadze,G.I.,“Contribution ofhydration to protein folding thermodynamics”,J.Mol.Bio.,Vol.232,660-679(1993).
[66]Stouten,P.F.W.,
Figure G2004800351905D00181
C.,Nakamura,H.,and Sander,C.,“An effective solvation term based on atomic occupancies for use inprotein simulations”,Molecular Simulation,Vol.10,No.2-6,97-120(1993).
[67]Bash,P.,Singh,U.C.,Langridge,R.,and Kollman,P.,“FreeEnergy Calculation by Computer Simulation”,Science,Vol.236,564(1987).
[68]Jorgensen,W.L.,Briggs,J.M.,and Contreras,M.L.,“Relative Partition Coefficients for Organic Solutes from FluidSimulations”,J.Phys.Chem.,Vol.94,1683-1686(1990).
[69]Jackson,R.M.,Gabb,H.A.,and Sternberg,M.J.E.,“RapidRefinement of Protein Interfaces Incorporating Solvation:Application tothe Docking Problem”,J.Mol.Biol.,Vol.276,265-285(1998).
[70]Labanowski and J.Andzelm,editors,“Density FunctionalMethods in Chemistry”,Springer-Verlag,New York(1991).
发明内容
本发明内容涉及到一种方法和仪器,它可有效地计算一个分子构型的两个或更多部分亲合力函数,这一个或两个分子子集是来自一个分子库中挑选出的大量分子部分,这种计算方式包含有大量的平行路径。本发明的其它内容涉及到平行亲合力途径的同步,以最大利用计算处理功率。本发明进一步内容是涉及到应用信息通道的分配方法,按照信息通道方案,分子解释信息作为一个或更多的数据块分配给每一个亲合力引擎。而且本发明用于分子组合分析仪器也将讨论到,它包括可提供一个或更多输入构型有效产生新构型,可计算多个构型的亲合力函数,为进一步分析逐个选择处理的构型,以及几个本专利反复使用的搜索优化的设备。而且本发明其它几种的硬件设备也将在本文中讨论到。
根据本发明的一个方面,提供了一种用计算系统来计算在分子构型的两个或多个分子子集之间亲合力函数的方法,所述分子构型由构型数据组定义,所述方法包括以下步骤:
把与分子构型相关的一个或多个分子描述符分配给所述分子子集,每个分子描述符代表一个分子子集;
在描述符数据存储器中,将已分配的分子描述符保存为分子描述符数据;
用数据路径分配器将所述分子描述符数据分配给多条数据路径;
将所述分子描述符数据从所述描述符数据存储器传输到一个或多个亲合力引擎,其中传输过程使用所述多条数据路径;
由所述一个或多个亲合力引擎生成分子构型的一个或多个亲合力分量结果,其中每个亲合力引擎包括一个或多个处理流程;和
基于由所述一个或多个亲合力引擎生成的并由所亲合力分量累加器接收亲合力分量结果,累加亲合力函数值。
根据本发明的另一个方面,提供了一种用于计算在分子构型的两个或多个分子子集之间亲合力函数的系统,所述分子构型由构型数据组定义,所述系统包括:
构型数据转换器,用于向分子子集分配与分子构型相关的一个或多个分子描述符,每个分子描述符代表一个分子子集;
描述符数据存储器,用于存储代表所述一个或多个分子描述符的分子描述符数据;
一个或多个亲合力引擎,每个亲合力引擎被指定用于计算分子构型的一个或多个亲合力分量,各亲合力引擎包括一个或多个处理流程;
多条数据路径,这些数据路径将所述描述符数据存储器与所述一个或多个亲合力引擎相连,这些数据路径能够将全部或部分分子描述符数据从所述描述符数据存储器传送给所述一个或多个亲合力引擎;
数据路径分配器,用于在所述多条数据路径间分配被传送的分子描述符数据;和
亲合力分量累加器,用于根据由所述一个或多个亲合力引擎生成的亲合力分量结果,累加亲合力函数值。
附图说明
本发明更完善的正确评价以及其许多优点将在文中展示,同时,参照图形详细描述将可更好地理解本发明。
图1是几个构象自由度的图例说明,它涉及到一个分子构象结构的可能变化。
图2a、2b、2c分别为氨甲蝶呤2-D图,氨甲蝶呤构象的球和棒以及另一种氨甲蝶呤构象图,它不同于图2b的描述,它有2个自由扭矩自由度的变化。
图3a、3b和3c分别描述在3D坐标Cartesian平面上一种氨甲蝶呤姿态的球和棒、描述变位和硬体旋转后的氨甲蝶呤另一种姿态的球和棒、描述另一种构象变化的氨甲蝶呤姿态的球和棒。
图4a、4b、4c例示了表征氨甲蝶呤和蛋白质二氢叶酸还原酶的分子组合的构型。图4a中的球和棒代表了氨甲蝶呤的一个姿态的蛋白质二氢叶酸还原酶的一个姿态。图4b描述了同一蛋白质姿态(如图4a),但不同的氨甲蝶呤姿态的另一种构型。图4c描述了另一种不同构型,其中蛋白质和氨甲蝶呤姿态不同。
图5是多种氨甲蝶呤分子扭转自由度的图示说明。
图6a、6b、6c分别展示了以pdb格式存在的氨甲蝶呤一个姿态数字描述。
另一种以mol2格式文件存在的氨甲蝶呤同一姿态数字说明,参照Amber96力场对氨甲蝶呤原子和键进行一组物理描述。
图7是分子组合分析模式系统设备图示说明。
图8为构型模型产生设备详细示意图,它包括构型信息转换引擎以及亲合力计算器,它是分子组合分析模式系统的一部分。
图9a表示两个平行通道的亲合力引擎仪器示意图。
图9b描述的是一个键亲合力引擎设备示意图,按照改性的谐波弯曲电势,当一个分子构型的一个或多个键角度变化时,可有效计算分子内拉伸能量。
图10,这是一个构型模型器设备部分示意图,它包括一个信息通道分配法,两个不同信息通道,描述计算法的两组平行运行的亲合力引擎,一种累积法,以进一步说明路径同步的概念。
具体实施方式
阅读本内容后,本发明的许多应用将明朗化。一个计算系统设备描述仅有几种可能的变化。对于一种常规技术,其它的应用和变化将是显而易见的,因此发明就不会理解为象例子一样狭窄,但同附加申明紧密相关的。
本发明设备现在就将描述,但不限于这些设备的例子,可以肯定的是本发明可以广泛应用并用于不同场合。
一个分子子集是一个分子组成的整体或部分体,其组成可能是单个原子或键,原子组和/或键组,氨基酸残基和核苷酸等。一个原子的子集也包含有一个原子,原子的一部分,含有一个或多个原子(或其它生物活性单元),蛋白质,蛋白质的一个或多个子集或域,核酸,一个或多个酞,或一个或多个低聚核苷酸。在另一情形中,一个原子子集也包含一个或多个离子,单个原子,或整个或其它单个原子,如盐、气体分子、水分子、基团或甚至有机化合物,如乙醇、酯、酮、糖等。在另一种情形中,分子子集也包含有有机分子、残基、核苷酸、碳氢物、无机分子或其它化学活性物,这包括合成的,医药的,类药的或天然化合物。
还有在另一种情形中,分子子集也可能用药靶通过一个或更多的共价键连接或束缚。在其它另一种情形中,分子子集事实上包含有一个或多个药靶结构单元,如第二结构单元,它形成蛋白质的第三结构单元或蛋白质第四结构亚单元;还有一种情形,分子子集也包含有一个或更多药靶分子的部分体,如包含有整个或部分活性区的蛋白质域,一个或多个空间连接蛋白质结构子集,这种子集是从一个或多个蛋白质残基中选出来的,甚至是不相连的蛋白质子集,它在催化剂或表面残基与不同分子相互作用时起重要作用。分子子集还包括整个或部分存在的分子配合物,这表明一个分子组合在两个或多个其它分子子集之间,如一个活性蛋白质或变构的蛋白质。
一个分子组合(有时就能仅是一个组合)是两个或更多分子子集通过潜在的键连接形成一个分子配合物。或甚至在特殊的物理、化学、生物环境中相互作用,一个组合至少指明了两个或多个分子子集相互作用的同一性。
在许多进一步的事例和说明中,分子组合将描述两个分子子集典型事件,其中配体生物分子(第一个分子子集)作用于药靶生物分子(通常为生物聚合物,第二分子子集)。因此一个分子组合的典型分析是找到配体同药靶分子在特殊环境中从什么角度相互作用。可以明白的是除非其它证实,这种事例或解释将更普遍地应用分子组合中,多于两个分子子集同另一子集相互作用或键合,这表明整个或部分,一个或多个药靶分子和/或一个或多个配体,或者甚至其它分子同特殊环境是相关联的。
作为一个例子,本发明中分子组合合可描述药靶同配体相互作用(即药靶-配体对),其中分子子集是来自蛋白质和另一个配体。进一步而言,一个分子组合可代表-药靶-配体对,其中的分子子集是完整配体化物分子,但另一个分子子集只是部分的靶及生物聚合物,它含有一个或多个相关活性区。
另一方面,分子组合可以多于两个分子子集为特色,其中一个代表了药靶(整个或部分),另外两个对应于两个不同配体,它们同时作用于同一药靶。在蛋白质阻聚和键合之间存在竞争的热动力学平衡。另一种情形是上述范例也可能反过来,一个分子组合以两个靶分子同一个配体生物分子竞争为特征。
还有一个范例是,在一种情形中,分子组合可描述蛋白质与蛋白质的相互作用,它们有两个分子子集,每一个代表了整个或一个同蛋白质的合适部分。进一步而言,分子组合也代表了蛋白质-蛋白质相互作用,但现在还有潜在多于2个分子子集,每一个代表了一种合适的蛋白质域。
下一个范例是,分子组合可以两个分子子集为特征,其中代表了靶-配体对和添加的分子子集,它代表了适合于相互作用的其它原子或分子(杂原子或杂分子),例如,但不仅仅限于这些,一个或多个催化或结构金属离子,一个或多个有秩序的被约束的结构化水分子,一个或多个盐分子,甚至其它分子,如不同的脂、碳水化合物、酸、碱、mRNA,ATP/ADP等。另一种情形是,分子组合可能以两个分子子集为代表,它表明药靶-配体对,以及一个或更多分子子集,它代表了整个或部分细胞膜,如部分脂双层膜和原子膜集等,整个或部分细胞器管,如线粒体、核糖体和内质网等。
在另一种情形,分子组合也以两个或更多分子子集力为特征,一个或多个分子子集代表了不同的分子组合的不同部分,另一个子集代表了配体在非占用活性区同配合物相互作用,如蛋白质与变构活性体复合,或者与含有多个不同活性区蛋白质复合。
在另一种情形中,分子组合以两个或多个分子子集为特征,它代表蛋白质链或其次级单元作为每一个四级蛋白质结构进行共价作用。在另一个情形中,分子组合以两个或多个分子子集为特征,它代表了蛋白质第二结构单元相互作用,它是聚酞链的四级结构,从蛋白质折叠链或诱变衍生。
分子子集有望在不同环境中具有不同的相互作用,它是许多可能的物理和/或化学因素来控制,这些因素包括,但不限于温度、PH、压力、化学势、膜渗透性、溶解性、偏正性(溶质和溶剂)、粘度、传导率、绝缘强度、相态(气体、液体或固体)变化或混合物,在电荷和/或不同的较高的多电极间静电势能,界面表面张力,包围在溶液中的离子或盐等。不同环境也可被分子子集间相互作用区特征化,如肠胃管,血液,体外实验室试验管,肝,细胞膜,细胞质和肿瘤中等。
本发明一种情形是,一个分子组合可能包括有环境的限制。两个不同分子组合可能包含有同样的一组相互作用的分子子集(如靶-配体对),但这是在不同环境中。作为一个实例,一个分子组合在真空近似气相环境中以药靶蛋白质-配体为特征;对于另一种分子组合,同-靶蛋白-配体对在以液相形式存在于包围在溶剂媒质之中,对于另外一种分子组合,同-靶蛋白-配体对在每一次X射线晶体学试验中也可悬浮在晶体格中。
在许多要来的实例和解释中,分子组合代替了典型的药靶-配体对同在水溶液环境生理pH的另一药靶-配体对相互作用,这里所指溶液通常是原子,离子和/或简单分子(如水、盐、糖)。在一种情形中,某种溶液可以被一种或更多种溶液分子子集表示,在另一种情形下,一种适宜的连续的固有溶液模型可表征溶剂。
在另一种情形中,分子组合可表征仅仅是一个分子子集同它自身和环绕的溶剂相互作用,此时一个或更多最佳能量分子构型或蛋白质有一个或更多合适的折叠。在这种说明下,两个不同分子化合物可表征相同的分子子集,但是在不同的环境中,在这种情况下,环境可视为是第二分子子集分子化合物的替身。它有利于决定分子和其它分子部分同其自身的相互作用时的最佳姿态。
在上上文中已经提到,一个分子组合典型分析可寻找决定出一个配体同靶分子环境中以什么角度相互作用。在另一情形,分析可包括大量的分子组合,每一个组合对应于一个从分子库(事实上或偶然)中挑选的不同靶分子,在同一环境中与同一靶分子复合,这样是为了找到一个或更多配体,这种配体同靶或甚至是更好性能的靶蛋白活性区键合或成反应。在这些过程中,为了获得合适生物活性相对比较,有必要设置一个对每一个分子组合评价或排队系统。
在这一说明中,每一个药靶-配体是独立的组合,如果试验时,几个配体对一个靶位,分析中将有几个不同分子配体。在大量的大分子库中,对一个靶蛋白而言,有必要分析上百万甚至更多的潜在分子组合。
在另一种情形下,分析可能是相反的,大量的分子组合代表了大量的药靶分子,每个药靶在同一环境下和同一配体生物分子复合。还有一种情形,分子组合可表征多个配体和/或靶同步反应,也就是不止一个药靶-配体对,也包括不同先前所提到的杂原子或分子。
在给定的分子子集结构可假定有不同的几何状态,这意味着在分子子集中的原子、键、化学基团的相对位置可以改变,因此一个分子子集结构变化可作为一个构象,在如下大量实例和解释中,可假定很多很多共价键在构象变化时还是保持的,也就是键并不打断或形成,虽然这对其它化合键如二硫化物键、氢键和盐桥并不是必须的。然而,很明显当发明工艺应用时,键要打断或形成,要发生化学反应,因为在一个特殊分子组合分析中,象明显要允许分子子集凝固或破裂。
同一个分子子集两个不同构象可导致键长,键角,键扭矩(准确又不准确)的相对变化,或者其它更复杂的变化如环变化(如环角摆动、环折叠等)。当子集中仅有一个原子变化时,两个构象间的变化是微妙的,或者当特殊对蛋白质折叠或者多活性残基侧键变化时,构象间变化是很大的。当空间几何并没有完全实现时,也会有一些构象的变化,这也会导致组成原子或基团的空间不协调,所允许的构象变化通常是指自由度的变化。
图1显示了标准自由度有不同的分子构象,102是一个化学键延伸的实例,也就是在两个相邻原子104和106之间键长度的变化。110是键角弯曲实例,也就是键角在三个连续原子112,113和115之间的键角变化。120显示了一个自身扭矩变化实例,也就是在原子122和123间键的转动,或者说由原子121,122和123限制的平面和有122,123,124原限定的平面组成的二面角发生了变化;值得注意的是,在自身扭矩变化实例中,假定在原子123和124之间键周围原子125和126进行相同的转动,这样可保证原子123和124之间的距离一定。
在图1中,140是一种异常扭矩,也就是由原子141,142和143限定平面和原子141,142和144限制平面组成的二面角发生了变化;150为“平面折叠”转象的非芳香族同素环,它是由原子151,152,153,154,155和156限定的。在这种情况下转象反映了两个平面间的角度变化,其中一个平面是由原子151,152,153,154组成的,另一个平面是由151,156,155和154组成的。最后,160是同一个芳香族同素环转变角摆动,但现在这一转变表现了两个平面间的角变化,其中一个平面是由原子151,152,153,156和155组成,另一平面由155,154和153组成。
其它构象自由度也是存在,如(但不限于)顺式和反式模之间的转变,一个或多个手性中心的变化,不同的立体异构,或者其它及更复杂的环变形,特别是大环的变化。但是许多(不是所有的)未打断或形成的分子构象的变化可分解成图1所列的一个或多个自由度。
在很多条件下,自由度已有许多限制,这表明原子和键的运动是有限制的,这些限制也可被本质状态或混合状态所改变,这些混合状态包括化学键,结构改变能量场,或甚至更复杂的考虑因素,如涉及到第二结构单元的守恒或者蛋白质结构特征或者不同于原子或其它分子的存在。
在如下许多范例和解释中,分子子集构象主要由一个或多个自由度有关,而自由度涉及到规则和不规则扭矩。因为对于许多系统,在标准配体和靶中大多数化学键的键长和键角在键合和非键合组合状态之间,并没有显著的变化,但表征环链(尤其中大环链)的化学基团除外。相反,在许多情形中,分子构象不需要局限于扭矩自由度。
图2b是氨甲蝶呤分子200的构象205的球和棒透视图,其分子式为C20H22N8O5,其2-D化学结构图如图F2a所示。分子子集包含原子220和键230。213是小而黑的碳原子。216是细小而白的氢原子。稍大而黑的原子(210)是氧原子,稍大而白的原子(211)是氮原子。图2a中,223是含有苯基(C6H4)的环,225是含羧基的环(COO-),227是含有甲基的环。235是一共价键,可连接碳原子213和羧基225。最后237是一共价键连接甲基227和氮原子229。
图2c是同一个氨甲蝶呤分子200的另一个构象260的球和棒透视图,图2b和图2c是键235和237仅是因扭矩自由度的扭矩角度值的不同而两者的构象不同,从而导致甲基(227)和羧基(225)中原子和键的位置发生变化。
给定分子子集构象在全坐标系统上可平移或旋转,而产生不同的几何状态,分子子集构象的这种变化在后面的描述中可以认为是一种姿态。
图3a是一个氨甲蝶呤分子一个构象300。320(黑色)是全Cartesian坐标系3-D坐标轴,也就是(x,y,z)。340(白色)时连接分子局部Cartesian框(x′,y′,z′),它通常是沿着整个Cartesian轴320的排列,图3b为同一构象300,但姿态不同。现在分子已沿着Cartesian坐标的X轴平移,并以320为中心,Cartesian框340已经旋转一个角度(a,b,c)。须注意的是构象300怎样旋转和平移应用于所有原子中,这样一个原子或见得相对位置针对另一个就没有变化。
当限定一个构象时,一个坐标系统的限定用作表示原子和键的位置,其实这并不重要,因为构象是同组成原子和键的相对位置有关的,并要选择适宜的坐标系统。但是在考虑到一个姿态时,坐标系统本身决定原子和键位置将怎样描述包括其它分子子集甚至环境因数的所有分子组合的其它部分,进一步而言,坐标系统的选择将决定旋转和平移操作将怎样受到限制,它们在给定的构象中将如何作用。典型的坐标系包括Cartesian坐标,圆柱形坐标,球面极坐标。一个典型的选择是将Cartesian框添加到分子质量中心或质心上。
对于两个不同的姿态可以有同一个构象但仅是它们的相对平移和旋转不同,这一被认为不同姿态是由硬体平移造成的。另一方面,两个姿态的不同仅是在构象方面,就旋转和定位而言,并没有什么差异(对于不同的两个姿态,Cartesian框添加到分子质量中心是相等的)。当然,考虑到坐标系统,无论是构象还是平移和定位,两个姿态可能是不同的。图3c显示氨甲蝶呤分子现是在不同的姿态中,这是由于构象及平移和定位都发生了变化,传统上,涉及一个构象的平移和定位,总共有6个自由角,3个平移(替代质量的质心或中心)和3个定位(如Euler角)。
由于分子组合可以在特定的环境中包含两个或多个分子子集,术语构型将用于描述所组成分子子集的连接姿态,所以在所选用的坐标系中,一个分子组合的特定构型用可描述一组所有分子子集结构组成位置以及环境的所有因数。
图4a是一个分子组合的构型,球和棒表征了化学医疗用药物氨甲蝶呤400(配体)和一部分蛋白二羟基叶酸还原酶420(靶),它们是通过溶剂接触表面实现的(标识为黑灰色);图4b同一分子组合的另一种构型,对于同一个氨甲蝶呤配体400有不同的姿态440,对于靶蛋白420有相同的姿态;图4c也是同一分子组合有不同的构型,配体400和靶蛋白420各有不同的姿态,值得注意的是活性区的“沟”是怎样形成变化的,几个活性区的残基经重新整理后,其构象发生了变化。
当分析一个分子组合时,对于每一个相互作用的分子而言,有必要评估表征不同姿态的不同构型。作为一个例子,我们考虑图4a到4c的复合物,我们可以假定蛋白质保持不变,配体假定有多种姿态,我们还可进一步假定氨甲蝶呤配体将仅变化它的构象,在分析过程中,扭矩,键长,键角以及环的几何构形都保持不变。
图5是氨甲蝶呤配体的2-D球和棒示意图,也为自由度描述扭矩作了注释。505,510,515,520,525,530,535,540,545,550代表了所允许的扭矩自由度(其中两个键570和575,它们连接三角平面氮基和杂环585,氨基键590被认为是固定的)。这产生了10个自由度以及关于靶蛋白的配体相对平移和定位的6个自由度。
在现在的例子中,在全范围-180°-+180°内,扭矩值是以10°的间隔在-180°-+180°范围内表示的,蛋白质体积大约是配体平移距离大约为
Figure G2004800351905D00282
描述定位的Euler角值为10°,因此组合的可能构型大于6×1023,因此很多姿态几乎不可能或很少感到,因为配体之间和同蛋白质之间的空间冲突,姿态能量不合适,同时另外的同蛋白质并不靠近,无法形成有利的相互作用,但现在的例子将说明构型潜在的重要性。
当分析这一分子组合时,采用一种捷径工艺但不评估可能的构型,但尝试有效而智能地查找出可能的子集,在分析子集时假设同一个或更多潜在的键合模式相关的构型是相似的,当然还可给分子组合添加更多的构型复杂性,如一个很好的例子是自由度或蛋白质构象的变化,将进一步增加可能构型的数量,它们对应于同活性区残基的侧链相关的一个或更多的扭矩自由度。
特别是一组描述每一个不同构型的分子描述符可用于区分不同的构型,分子描述符包括如下内容,但不限于这些,a)化学描述符(如元素,原子,化学基团,残基,键类型,混合状态,手性,立体化学,质子,氢键给体和受体能力,芳香化合物等);b)物理描述符(如表面电荷,部分电荷,质量,极化率,电离能量,特征尺寸参数,如van der Waals[vdW]半径,vdW井深,憎水性,氢键势能参数,溶解性,同键能和键几何数值相关的平衡键参数等);c)几何描述符(如原子坐标,键矢量,键长,键角,键扭矩,合时的结构环描述符,分子表面和体积描述符,如溶剂接近表面和溶剂排斥体积等);d)环境描述符(如温度,pH,离子强度,压力等)。
化学描述符基于一个或多个有机或无机化学定律或概念的应用,可表示化学结构,它规定了基本的结构信息,如元素类型,键连接(也就是最小是非氢原子连接),还可包括一些坐标信息。这些化学结构可储存接受大量的信息符号,一个常规的信息符号是PDB文件,当然许多其它的文件也是可能的,一个完整的PDB文件格式描述可以在Westbrook等人的文献中找到[53],当前可用于化学描述符
适用的软件包括从SYBYLTM版本到Tripos版本软件,从ChimeraTM版本到UCSF版本软件,WhatIf(用于蛋白质)软件等,正确的化学描述符还包括手性中心补充输入,立体化学或甚至包括环境因素,如pH值及其相关的电离态。
图6a是采用pdb文件说明在图5中说明描述的氨甲蝶呤配体构象的化学结构600,它包括首部610,有原子和坐标信息组成的部分620,键连接信息部分625。首部610可含有各种注释或其它信息身份,源,分子特征及其构象;620部分列举了一系列氨甲蝶呤的所有的33个非氢原子,对于每一个原子它包含有一个化学类型(如原子组成)以及三个空间坐标;例如,对于原子6,其链表明它是在MTX化合物(如果是蛋白质,就是残基)的NA4氮原子,以及在特定的坐标体系的(x,y,z)坐标为(0.821,57.440,21.075),MTX化合物含有链A和1的化合物ID(或残基)。值得注意的是在生物化合物中,化合物或残基名域对于氨基或核酸而言可能更贴切。
625部分是PDB文件600,有时被称作PDB文件的连接记录,它是描述一系列同每一个原子有关的键。例如,这一部分的第一行表明原子1是同原子(2),原子(12)键合的,第二行表明原子2是同原子(1),原子(3)和原子(4)键合的,值得注意的在这一例子中氢原子已经失去,连接每一个原子的键并没有完成。如果氢原子的位置已经确定,完成的不同PDB文件说明版本是可能的,但在很多情况下,化学结构是从实验观察得出的,氢原子的位置可能全都不自然或已失去。
图6b显示了对于图6a中描述的氨甲蝶呤输入构象,Tripos mol2文件包含有不同的结构和化学信息,列630列举了每一个原子的指数,列633列举了每一原子的原子名(可能并不唯一)。列635,637和639分别为在内坐标系统列举的每一个原子x,y,z坐标轴。列640按照Tripos力场对每一个原子列举了一个SYBYL原子类型[56],它可以整理混合状态,化合类型,氢键能量,芳香族化合物属性,键连接和某些情况下的化学基。列642和645列举了每一原子的残基ID及其残基名(适于蛋白质和核酸)。列650列举了分子子集的所有键。691部分列举了每一个键的键指数;列652和653列举了两个原子由键连接的原子指数;列655列举了键的类型,它可能是单键,双键,三键,移位的,氨基化合物,芳香化合物,或其它特殊共价键。在其它情况下,这样的信息也表征非共价键,如盐桥或氢键。值得注意的是在这一例子中已经包括了氢原子。
值得注意的是在这一例子中已经包括了氢原子(这种情况下,它们有合适的位置),这是化学使用化学描述符的结果,在这一实例中,所描述的原子类型包含有已整理的信息,如混合状态,化合类型,氢键能量,芳香族化合物属性和在某些情况下的化学基。进一步而言,电离作用状态可被原子类型和加氢作用共同推导出。其它的例子甚至还包括相关信息和单独对。
物理描述符依赖于一个或多个化学描述符,并且典型地同原子和/或键相关,也可由化学基团和残基等描述。物理描述符的价值在于可以参照一个或多个参数组,这个参数组是同分子机理力场如AMBER[40][41],OPLS[42],MMFF[43],和CHARMM[44]紧密相关的。一些物理描述符也可指定应用一个或多个分子模型软件包,部分电荷可指定用Mopac[45]或AMPAC[46],如能量相互作用模型化的选择将规定物理描述符的类型和形式,它是为每一个分子子集决定的,是为了计算给定分子组合的亲合力。
图6c显示的一个包含有物理描述符子集的文件,它是为对应于图5,6a和6b的氨甲蝶呤配体指定用于AMBER96力场(用于部分电荷选用Mopacv7.0)。660部分描述原子的物理描述符,它是同电荷(列662),质量(列663),vdW半径(列664)和vdW井深(列665)相关,这一原子是原先列于图6a的同一原子名(列661)。670部分描述键的物理描述符,它是同描述在图5中的10个键扭矩相关。这儿列672,674,676和678表示广义化Pitzer势场的标准数值参数,用于估算同二面变换相关的应变能。
几何描述符是同一个或多个分子组合组成的结构描述相关的。这些几何描述符包含但不仅限于坐标系或空间信息,如用点来表示原子的中心;矢量表示不同的化学键;面来代表不同的化学基团;球体来代表每个原子的范围和放置;3-D表面用来表示溶质和溶液之界面;体积用来表示溶质的占有量;空间3-D方程用来在3-D体积格中(如探针格栅图[26][31],图解微积分的网眼等)表达分散的作用力或势场,甚至常用的几何函数也可用来描述结构,表面,以及体积(如Ritchie等人的球形谐波辐射方程),几何描述符还可以包含一个或多个几何变量(如角,扭度(torsion),长度等)用来表达不同姿态所允许的一个或几个自由度,如在图1中描述的一些构型自由度。
一些几何描述符如点,矢量,面,及球是有自然中的表现形式,虽然它的量是随着不同的参照关系变化的,而另外的一些几何描述符如表面,体积,表图可以有不同的表现方式依据不同贮存的要求,不同精度的要求,以及不同被表达物体的性质。例如,表面可以表达一个系列的面当量或基本表面斑(psch)的集合,体积可以表达为3-D量点的占有度或简单几何物体(球或多形体)的集合。
用来表述自由度的几何描述符可以是连续的也可是离散的。这些几何描述符可以有一个或几个基本结构或能量上的限制;这些参数是随着不同分子子集所选的内部参照系而变化的。这些几何描述符对区分同一个分子或分子组合(如构象,姿态,构型)的两种不同的几何构象是至关重要的。
几何描述符是可以由输入的结构数据中衍生出来的。如在表6b(及6a)描述输入的氨甲蝶呤配体,结构的空间参照系。键矢量可以容易地从620部份中空间参照系以及625部份中的连接记录中取得,键角可以从键矢量中获得。扭曲的角度可以由一组连续的键矢量所决定的两个面的数据中推算出来。
环境描述符要随着前瞻性的分子组合位点而变的,环境描述符可能是随着系统内不同位置而变的三维方程,故而要求选择一个或多个合适的系统临界值,对溶剂的选择可以是直接说明的(如水偶极子的模拟[67][68][69]))或间接的说明(Generalized Born[62][63],Poisson Boltzmann方程[60][61]),对溶剂的选择直接影响对任一分子组合分子的计算复杂性。
在下文中描述某一特殊分子构型的分子描述符集称为构型记录。二种构型记录包括分子子集的分子组合在同一物理环境中但至少有一个几何描述符不同。包括不同的分子组合(在同一物理环境中)二种构型记录被期待在一个或多个化学的描述符,物理的描述符及空间描述符上有所不同,一个分子的记录是指构型记录中描述一个分子子集的参数部份。
作为分析分子组合的开始,每个分子子集配有一传输入分子记录,经常带有对这个原子起始状态的几何描述。一个表现形式是起始姿态可以从由输入3-D(或有些情况是2-D)的化学结构导出的初始构象中产生。这些输入的结构一般由实验产生或由以前分子模型的姿态和或构象分析中得到,例如以前分子模型和或构象分析包括蛋白模拟或能量构象最小化模拟分析(如分子动态模拟,随机优化等),或2-D至3-D的结构转换工具(如CORINA[57]),在另外一些情况下,输入的数据结构可以是随机附值的几何描述符,每个分子子集的起始姿态可能是通过随机分派全体平移和/或定位变量而来的初始构象,一般来讲,通过随机优化分析分子组合的方法经常需要在优化开始以前给一个或几个几何描述符附值,在另外一些情况下,初始姿态是比照一个或多个输入分子记录,而这些分子记录可能是从以前分子模拟个别子集(或用分子组合作用一个整体)作为循环程序的一部份。
处理一个分子库时通常需要分析成百万或上亿的不同的分子组合,而每个分子组合又需要分析成百万或上亿的系统构型,作为有效的评估每个系统构型方法的部份,通常希望利用有效产生不同构象,姿态以及由此产生分子组合的构型方法,以及贮存相关分子及构型记录。
在某些情形下,有效地对系统构型结构的修正可通过应用一个或几个几何运算而完成。这些几何运算通常是由一组几何描述符而定的,通常而言,在分析分子组合过程中被访问分子构型的顺序及数目是由选择寻找及优化的方法来决定的,一种表现方式就是,所有访问过的构型集合(可能是有序的集合)可以是由对初始构型而开始的,而初始构型包括一个或多个输入分子记录,它同每个分子子集相关的输入结构相关,所选用的几何操作就可以随后用来产生一种或多种构型,或以串联的方式(如Monte Carlo方案的状态轨道)或以并联的方式(如遗传算法中的群体)
在一种情形下,可以通过对一个或多个自由度变量的随机变化来完成的,另一种表现方式可以通过对自由度变量进行集合或顺序的转换来完成(如在图1中所表示的框架),在另一种情形下是基于遗传算法中的沟通(crossover)操作,或模拟退火及Monte Carlo为基础方法中的能量状态不同的变异机率。
这种几何运算的应用对几何描述符作为分子记录的部份以及带有的不同构型的蕴藏有深远的影响。例如,用贮存一个模板构型(初始或随机构型中或其余显著的变形)的参照系来取代在一种构型中每个原子的空间定位,再通过记录代表模板构型通过一系列几何操作,净转化特定感兴趣的构型的相关几何描述符的值。
作为一种范例,在一种情形下,用几何描述符来代表图2c中的构象,通过一个分别PDB记录(或同等)用和图2b中构象附属的原始PDB记录可用两个扭转角度来代表键角235和237的转化。就可以表示图2c的构象而不用两个单独的PDB记录,另外的表示方式就是直接贮存所有原子的参数。这种方法虽然可行,但如果没有合适的几何转换直接贮存表面和体积参数(如对分析是必须的),则是很昂贵的。
在一种情形下,对原子及键的物理描述通常是不起变化的,如果是在同一环境下不同构型,如果将这些物理描述符贮存在锁住的表格中,并可以通过原子或键的目录来检索,这样程序同单独贮存重复的数据比就快捷多了。同样的道理可以应用到简化对化学描述符的贮存,应为同一分子组合中同一环境下的不同构型的化学描述符是大体不变的。
依据不同模拟方法的复杂程度,环境描述符贮存的要求变化很大,描述非直接溶剂模型的一组常数对贮存要求很小,而在直接溶剂模型对3-D函数的空间变化的表达对贮存的要求都是极大的。
在一种情形下,分子记录可以贮存为一个或多个文件在一个记录复制的贮存介质中,分子记录也可以贮存于一个或多个数据库中,也就是一个或多行数据在逻辑数据库数据表中,或一个或多个实体数据库中,构型记录也可以通过简单的集合代表每个分子子集的分子记录,构型记录还可以通过特殊的系统构型的评估面加以额外的辅助,如构型评价或其它量或质的测量。另一种表现方法中分子和构型记录的数据表现作了加工以利于有效的数据存取。另一种情形是描述符数据(特别是几何的和化学的)可存在一个或多个特殊的记忆内存依据Ahuja I所描述的分子表现分配,描述数据也可以存于很多标准数据结构中,如列、树、堆、分块表、方向性图或其混合法以及如在分子图型结构中讨论的特殊记忆分配结构。
前面提到的估计结合亲合力或结合能量是分析分子组合所感兴趣的。结合亲合力或结合能量的估计通常是由计算亲合力函数来实现的,计算亲合力函数依赖于相应分子构型中相互作用的分子子集的性质,亲合力函数代表了分子子集之间的相互作用,以及分子子集自身的相互作用,以及与其环境之间的相互作用,计算亲合力方程是根据每一特定的分子组合构型,涉及各方面的分子描述符如关于分子组合化学的,物理的和几何结构的描述符,可以包含多个分子记录或单个构型记录。在有些情况下,亲合力方程可以是一个关于一个或多个能量的数学方程或评分,这些能量包括结合亲合力,结合能,以及分子系统的自由能,在另外的一些情况下,亲合函数可以代表其它量化的测量,包括但不仅限制于形状互补性的测量,一种评分,一种QSAR预测,一个结合常量,或反应速率或可能性,在有些情况下,亲合函数可以代表各种性质的测量,如分级,分类,或其它分类(如完全反应,高活性,低高活性)。
分子组合的亲合函数通常由一个或多个亲合分量组成,这些分量以某种方式复合叠加而得到一个亲合力值或分数,在某些情况下,亲合分量由一种或多种相互作用类型,亲合力公式,以及计算策略所决定的。
一种情况是组成亲合力函数的组成是每一个分量加和,另一种情况是亲合力的组成以一种线性方程整合在一起,也就是每个分量加权后再相加,而有些情况下,亲合力函数是非线性的。
亲合力的计算是因情况不同而异,有时亲合力可以由其组成分量简单相加而成;有时这些组成分量要进行线性整合,也就是加权后才能相加;有时这些组成分量是以非线性整合;有时亲合力是判断决定的,如亲合力的一个分量只有大于某个阈值时才说是有亲合力,在另外的一种情形,组成形式可以通过一组实验测定亲合力数据回归分析后而得出,而在有些情况下,亲合力可以由模式识别的方法来进行动态测量,这往往是由神经网络或支持的矢量机械来完成的。
相互作用在这里是指一个或多个分子子集的一种物理或化学相互作用,这种相互作用发生在分子子集内(分子之内),或同其它分子子集(分子之间)以及与环境的各成分(环境的)间。相互作用的类别本质上是熵性的,也可是焓性的,可以反映键合的和非键合的相互作用。
非成键的相互作用包括但不限制于静电吸引力,随时间变化双极动态间的vdW(排斥力)近范围的排斥存在于相互交叉的原子轨道,氢键,金属离子间相互作用,和一个或多个有序水分子的相互作用。其它非键性相互作用包括一个或多个溶剂作用,如静电脱除溶剂(包括自身反应领域极化效应,溶剂选择在电介质中或溶剂基础的离子环境),疏水效应,空穴能量以及表面张力。
成键相互作用的例子包括但不限于分子内张力,它同平衡键长,角,扭矩等的畸变有关,顺反式之间或能量间隔,或手相改变能量差焓性的相互作用,包括在结合时或释放有序水分子而获得的有益烩值,其它外部的相互作用包括pi-pi重叠,电荷转移,及其它量子机理现象。
亲合力公式是指用能量模型来计算分子组合的一种构型的相互作用的近似值,一般来讲,每种相互作用有很多不同的亲合力公式或供选择,选择亲合力公式可以影响对任何一种相互作用的量化近似过程中的错误范围,选择亲合力公式也可涉及到不同水平的模型复杂性以及计算复杂性,一个亲合力的公式可能需要评估一个或多个分子描述符,两种不同的亲合公式同时针对同一种相互作用,可能需要一个很不一样的分子描述符,而其它亲合公式可能共享许多分子描述符。
例如,静电引力可以通过亲合公式来模拟,它运用同距离相关的电介质函数修正的Coulomb’s定律(如文献[59]描述),通过在选用合适的力场中将一组部分电荷分派给在每一个分子子集原子中心。另一个例子是静电和静电脱溶剂相互作用可以参照亲合公式并结合Poisson-Boltzmann方程(线性或非线性)而建模[60][61],这种模拟是假设点电荷埋于溶质球体中,其大小由vdW半径而决定的,溶质球体放置于一个水代表的同质双极中介体中,并可能象Gilson等人描述的离子环境[58]。另一种模拟静电引力的模型是通过量子机理的途径来解决每个分子子集的电子基状态[70],大多数情况下,用距离修正的Coulomb公式是计算起来简单但不如Poisson-Boltzmann公式精确,更不用说和量子机理的公式去比了。
更进一步的例子是对vdW力的模拟,基于vdW力可以用亲合力公式来模拟,亲合公式既可以利用泛化后Lennard-Jones势场,也可以用Ritchie等人的空间相互性评价[13]。氢键的相互作用可以参照亲合公式来模拟,其中应用一个12-10的Lennard-Jones势场及角加权的函数,或也可以在Amber力场中用重新测定氢键供体和受体的部分电荷及vdW半径[40][41]。疏水作用可以用Stouten等人[66]提出的分段体积方式来计算或者Eisenberg等人[64]提出计算溶剂表面可接触公式来计算,由双头变化引起分子内张力可以参照亲合公式运用Pitzer势场或反Gaussian扭矩限制来模拟,另一例子是而不用Poisson Boltzmann公式,构型的静电脱溶剂运用Generalized Born近似法参照亲合公式来模拟[62][63]。
这里所谓的计算策略是指用于估算一种或多种相互作用类型亲合力公式的计算技术。计算策略的选择是受到可以使用的计算机系统,仪器,方法可供使用的计算机记忆内存,以及计算时间等多种因素的影响。
靶-配体之间静电相互作用的亲合力可以做为一个例子来说明不同的计算策略。同距离相关的电介质Coulombic亲合力的公式可以通过直接相加的方法来计算。也就是说,对在蛋白质和配体中所有可能带电荷的原子进行配对计算。如果一个配体有100个原子和一个有3000个原子的蛋白质进行配对计算的话。那么仅分子间距离就要配对计算300K,更不用说不同分子内的配对计算了。
另一种计算策略是替代使用探针格栅图[26],运用静电相互作用亲合力公式进行近似,蛋白质上电荷的静电电势被评估并存储于坐标系3D格中,以表示其在蛋白质中的位置。对在配体上的每个电荷相应的静电势场值可以从记忆内存或其它贮存装置中取出,电荷和静电电势的乘积可以在配体所有电荷面累积,这种方法可以大大减少计算量,尤其是在针对一个靶蛋白质筛选一个配体库时,这时很多种分子组合都带有相同的靶蛋白但有不同的配体,当然,探针格栅图近似需要很多贮存空间以便减少由势场函数变异而带来的数字错误。另外,这种近似方法也只适用于蛋白质上的电荷不随不同构型而改变的情况。对于有弹性的结合区的靶蛋白可以采取一种混合的计算策略,用配对计算的方法来算蛋白质中活动的电荷源,同时用探针格栅图的方法来计算蛋白质的其余部位,这是Luty等人提出的方法[26]。
一般来讲,不同的计算策略可以用到不同相互作用类型的亲合力的计算。从另一个角度来看,计算策略的选择受到亲合公式及相互作用用类型的限制,例如,用于计算分子间静电相互作用的计算方法就很难用于计算分子内涉及键形成的侧链部份相互作用。
除了基于配对(也就两个原子之间配对)和图及势场(原子在一个势场中的作用)的计算策略,还存在其它的计算策略。例如,评估Generalized Born溶剂模型是基于计算相对溶剂被排除的,体积的积分(Still等人[62]),或计算溶剂可接触表面积的积分(Ghosh等人[63])。另一个例子是许多种成键的相互作用可以用一个翻遍一种贮存相关坐标和键描述符的可适的数据结构。
总的说来,亲合函数是由几个亲合分量组成,这些分量代表了相互作用的类型,亲合力的公式,以及计算策略。一个亲合分量代表了一个或多个分子子集的整体或部份的相互作用,一个亲合函数可能有多个同个作用类型亲合分量。例如,两个亲合分量可以代表相同的作用类型,但有不同的亲合力计算公式和它们的计算策略。对于任一分子组合,每个不同的分子构型可能产生不同亲合分量的结果以及相关的亲合函数。在一种情况下,分子组合的分析基于确定有最佳亲合参数的构型,在另一种情况下,要同时考虑多个适宜于亲合函数的量,对于描述一个或多个潜在结合方式的分子构型的亲合函数,几个适宜于这个函数的参数要同时考虑。也有一些情况下,多个亲合函数可用于计算一个或多个分子组合的构型,而后依据它们的结果来共同作为判断或措施,诸如在针对靶位来筛选一个分子库时,每个分子组合都进行小的有限分子构型的共性评价。
图7描述分析分子组合的模拟系统700。图示一个构型模拟器702接收一个或多个构型记录706的输入信号,这包括一个或多个分子子集,从输入分子组合数据库704中得到一个或多个分子子集的输入结构的名称及分子描述符。构型模拟器702包括一个构型数据转换器708,一个亲合力计算器709,及描述符数据存贮720,从构型模型器702得到的结果输出为构型结果记录而贮存在结果数据库710中。
模拟系统700可用于测定,分析一个或多个分子组合。具体应用包括如下内容但,但不限于这些内容,预测潜在分子组合的可能性,以及与此相关的,评估环境中分子子集之间结合亲合力或结合能;预测分子组合中分子之间结合模式(或其它可选择的模式);根据靶生物子集和活性,把分子子集(如配体)优先排列;还包括同计算配体与药靶的嵌入和评价相关的一些用量。
在实际操作中,很多分子组合,每一个可表征很多不同的分子构型,代表不同构型的分子组合都可以模拟.因为所有可能的构型数目巨大,在模型过程中,模拟系统700可抽样模拟。即使抽样,抽样子集依然很大(如每种组合的构型数还可能成千上万),在此情况下,构型取样的选择方法也特别,可用一个或多个查询/优化技术(例如最陡降量,结合梯度,修正Newton法,Monte Carlo法,模拟退火,遗传或模拟算法,完全抽样,模样配对,循序建档,片断放下和加入,等等)来决定构型抽样方法。对每一个被访问的构型可用一个亲合力函数评估,一个或更多构型结论可记录在储存介质中。
构型抽样结果包括计算亲合力函数值,可用来评估分子组合。如果按序进行,一个分子组合的计算完成以后,另一分子组合的模拟就可以开始。700模拟系统也可以同时模拟多个分子组合。依此类推,在按序模拟每个分子组合时,此系统也同时模拟多个构型。
在一实施例中,模拟系统700可以在专门微处理器、ASIC或FPGA上实现。在另一实施例中,模拟系统700可以在具有多个微处理器、ASIC或FPGA的电子或系统主板上实现。在又一实施例中,模拟系统700可以在装载在一个或多个电子仪器的多个主板上实现。在再一实施例中,模拟系统700可以在位于一个或多个电子主板的、包含一个或多个微处理器、ASIC或FPGA的多个仪器上以及通过网络连接的多个仪器上实现。
模拟系统700可包括一个或多个用于储存各种分析中需要或产生的数据的存储器。存储器或与系统直接联机,或与系统分开但连到同一网络上。一个或更多数据库或文件系统。与系统分开的存储器的例子有数据库或文件系统。如果700装有多主板系统,它还包含一个或多协助计算过程的软件处理器。这些软件处理器用于连接模拟系统700,或存在于网络中某个地方。
在某些情形中,数据库710的结果记录可送到构型选择仪712进一步处理,根据各项指标再筛选出一些分子构型,然后被再送到构型模拟仪702(可能在不同的工作状态下)进一步分析(即,反馈周期)。在这种情况下,分子构型以构型记录714的形式输入到构型模拟仪702中。
在另一些情形中,712构型选择仪传送新构型形成指令到构型数据转化引擎,新构型随后由702构型模拟仪模拟。比如,对每个药靶配体组合,如果构型模拟仪模拟10个药靶配体构型,其中两个构型的亲合力明显比其它8个高,712构型选择仪会为构型数据转化引擎产生如何组建结构上与原来两个高亲合力构型相似的新构型(就是药靶配体型状)的指令,新构型随后由702构型模拟仪其它的部分进一步处理。有时的指令是从新产生的构型组建,其它时候则由原始输入构型组建。
在某些情形中,分子组合的分析一旦完成(即,所有预期的构型都被评价),组合后处理仪716可用来从710数据库中篩选一个或多个构型结果记录,并由此产生用于测量分子组合的定性或定量组合方法,例如组合分数,组合总结,组合级别等等。这些组合方法然后被存放在分子组合组合结果数据库718。有时,组合方法反映了710数据库中拥有最佳亲合力的构型记录,有时,多个高亲合力的构型被提交到组合后处理仪716,一组综合组合方法被储存在718组合组合结果数据库。在一些具体应用,用于后处理仪716分子构型的选择参照一个或多个界面值,或其它标准。
在进一步的情形中,分子构型可根据涉及结构多元化及相似性(例如,考虑构型之间的rmsd,采用基于结构的分组安顿战略等等)的标准来选择。另外,输出到718组合结果数据库的组合方法是根据对710数据库的构型结果大数量的采样进行各种各样的统计分析而得来的。选择采样本身也可以采用统计方法(如主要内容分析、多维集群、多元回归等)或模式匹配的方法(如神经网络、支持向量机构等)。
在另一种情形中,储存在718组合结果数据库的记录不仅仅包含有关的组合方法,还包括由后处理仪716选出的,部分或全部的,用来构成组合方法的,各式各样的构型记录。例如,718数据库的记录可代表分子组合的预测结合模式,或其它高亲合力(可能不同结构)模式。
在另一种情形中,只要构型结果记录存到710数据库,后处理仪716就可动态地(就是同一时间)对构型结果进行组合分析。为了存储按顺序排列的分子构型,后处理仪716也可用于710数据库里部分或全部的分子构型的排名。分子库的筛选可能涉及许多不同的分子组合,为了节省存储容量,一旦最后的代表702模拟仪所有的分子组合的组合结果记录存入718数据库中,710数据库的部分或全部构型记录就可被删除。另外,垃圾收集或其它类似的方法可用来动态的从710数据库中删除低亲合力的分子构型记录。
分子组合记录数据库704可包括一个或多个分子记录数据库(例如平面档案,关系型数据库,面向对象数据库等),文档系统,对应于每个分子子集的输入结构,由702模拟仪接受的分子记录,以及相关环境的环境描述符。在模拟药靶配体的分子组合中,组合记录数据库704由药靶数据库和配体(候选药物)数据库代替。药靶数据库记录可由实验结果(例如,X射线结晶,NMR等等)推导的,最小能量模型设计的3-D蛋白质立体结构。输入配体分子纪录代表能量减到最小或被随机化的3-D结构,或其它由2-D化学表示法转换而来的3-D结构,甚至是低能量配体的孤立采样。有时,输入配体分子纪录是自然界存在的化合物,是可被或不可被合成的虚拟化合物。
构型数据转化引擎708可根据几何描述符进行各种各样的几何操作,把一个或多个分子构型转变成新的构型。改造成新的分子构型变种由一个或更多一元操作(也就是,作用于一个输入构型,例如遗传算法的突变),二元操作(也就是,作用于两个输入构型,例如遗传算法的交叉),或其它的多元操作(也就是,作用于多个输入构型,比如基于分子构型群体的操作),或多种操作的组合完成。新变形的转化过程可从一个分子构型产生多个新变种,譬如,用于遗传算法的适当(通常是随机的)初始群体的产生。有时侯,708转化引擎不需要704组合数据库的几何描述符,可从头建造一项或多项全新的分子构型,但其它类型的分子描述符仍是必要的。
如上所述,分子组合分析过程中转化而来的分子构型集可根据控制702模拟仪模拟过程的日程表或采样计划,由一个或更多搜索和/或优化技术得来。搜索策略或优化技术的应用是一个互动过程,此过程中,一个分子或多个构型可产生一个或多个新的分子构型,每个构型的亲合力被计算,根据亲合力和/或结构得出结论,然后部分或全部的新构型再作为下一周期的输入种子,整个过程继续直到702模拟仪完成一定数量的周期或达到其它汇合标准。从分子组合数据库来的构型记录706仅可用于开创(或从新开始)一个循环过程。
搜寻策略或优化技术本质上也许是随机的,这就意味着分子组合分析过程中被访问的分子构型可能包含随机的成分。因此在模拟对同一分子组合构型的不同运行,被访问的分子构型也可能是不同的。运行指的是在同一个分子组合分析计算周期中两个不同的起始。因此,分子组合后处理仪716可根据不同次运行产生的,存储于710数据库的构型结果作决定。
构型转化引擎708可按序地产生新的构型,例如一个与Monte Carlo技术指定周期有关的新的状态,并按序地把它们传给亲合力计算器709。构型转化引擎708也可以平行地产生多个新构型,比如一个遗传算法周期里得到的群体,并平行地把它们传给709亲合力计算器。
有时,构型转化引擎708没有产生新的构型,构型模拟仪702仅采用704分子组合数据库的输入构型来模拟,模拟系统700用于分子构型的评分就属于这类例子。在这种情况下,构型模拟仪702可以不包括搜寻或优化策略,反而被用来演算构型输入纪录的亲合力。
与一个指定的分子组合构型有关的各种各样的描述符数据,以一个或多个存贮(或记忆)分派手段、结构或用具,存放或记忆在720数据库中,为构象模拟仪702提供高效率的提取和存贮手段。描述符数据存储720也包含与原子、结合键、小组,分子有关的化学或物理描述符,还包括与分子子集有关的环境描述符。
一个分子组合所有构型共同的描述符数据可由一个或更多查寻表里的存贮分派手段紧凑地代表。例如,一个分子组合不同分子构型的许多物理或化学描述符可能是一样的,而它们的几何描述符却是不同的。
描述符数据存储720可包含根据规定的存贮分派方法,以一个或多个存储格式排放,与构型相关的几何描述符。这类格式包括,但不限于,与pdb或mol2文件格式类似的记录。其它的例子包括各种各样数据结构,比如Ahuja I所叙述的,用来分割分子表示法的数据结构。其它可以用来表示原子和键的描述符的数据结构,包括序列或矩阵里的节点,或有向指示图的节点和连线,
部分或全部706输入构型记录,构型选择仪712选出的714选择构型记录,可转化成720描述符数据储备的数据记录。720描述符数据储备里的数据体由708构型转化引擎或709亲合力计算器,由构型模拟仪720在计算周期的开设或运行中写。720描述符数据储备的布局和读写方式将由亲合力计算器709和构型转化引擎708的需要来决定。
亲合力计算器709也许包括一个或更多处理(即,亲合力)引擎,各个亲合力引擎,依照早先定义的关于相互作用类型、亲合力公式化和计算战略,致力于一个或多个亲合力分量的演算。有时,不同的亲合力引擎被分配到各个独特的亲合力分量,有时一个或多个亲合力引擎可处理有相同需要的多个亲合力分量,其它的时候,为了提高预存贮计划,减少各种数据通道对宽带网数量或路径的需求,不同的亲合力引擎也许被编组或被安排在一起去利用共同的必需的输入数据子集。
例如,在另一种情形中,静电或范德华力相互作用,涉及使用存放的预先产生的探针栅格图的实地运算战略,这种相互作用的亲合力分量可由同一个亲合力引擎计算,也就是说,引擎要求能够接触到存贮的两类型探针栅格地图和用于评估与两种不同作用有关的亲合力方程的各种各样的数字参量。氢键和范德华作用可由同一个亲合力引擎计算。范德华作用使用亲合力方程式来代表Lennard-Jones潜能,这种潜能是根据配对计算战略得来的。同样的两个亲合力分量也由由两个不同的,但为了分享共同的输入数据而组编在一起的亲合力引擎来计算。共同的输入数据包括与空间座标有关的数据,和相关的化工或物理描述符。
典型的处理流程由一系列的处理单元或引擎构成,它分好几步完成一项任务,就象工厂的装配线。每个处理单元接收输入数据并用产生输出,所述输出存储在其输出缓冲器中。在一个处理流程中,每个处理单元的输出就是下一个处理单元的输入数据,也就是说,一个处理单元的输出缓冲器就是下一个处理单元的输入缓冲器。处理流程允许处理单元平行运行,因而比如果每个输入必需在下一个输入数据运算开始之前完成处理来得更有效。流程的第一个处理单元经常从储存器,预存,或上游流程接到输入数据。同样道理,流程的最后一个处理单元把结果输出到存储器,预存,及下游流程。
流程的每一个处理单元同每个流程阶段相关联。流程阶段间期定义为每流程阶段所需要的,从输入产生输出的时间。流程阶段间期以周期(或时钟周期)为测量单位。周期指计算设备认可的基础时间单位。周期通常由系统时间率(也叫时钟周期)确定。
流程阶段在流程阶段间期的开始阅读输入数据。流程阶段的输入数据预计在阶段间隔开始之后,而不是以前可供阅读。同样道理,流程阶段输出是在流程阶段结束之后,而不是之前可被利用。如果流程阶段由于早期阶段的输出而必须等待一段时间才能开始运行,此等待的时间叫流程空档。在此期间,处理单元是闲置的,因为它已经产生上一组输入的结果,但还没有开始阅读或处理由上游阶段产生的另一组输入。
潜伏期是流程中自然的一部分。潜伏期指第一处理单元接收到第一个输入数据和最后处理单元产生第一输出数据之间的全部时间间隔。潜伏期后,所有流程阶段都正常地连续地处理数据。这时的流程达到了稳定状态。
一个被很好设计的流程,所选的流程间隔使流程空档达到最小或可忽略不记。一旦流程达到稳定状态,所有处理单元几乎全被利用。要取得流程的最大利用率,可能需要更长的潜伏期和更复杂的系统构架,以使流程的不同阶段更好的同步化。因此不同的输入在任何流程阶段都不互相影响。流程时间表在这里指在流程阶段间期,哪个流程阶段接受输入数据,作不通操作,把结果传诵到流程下一阶段的日程表。
平行流程指流程并肩运行,也就是说,当一个流程处理一套数据时,另外的流程同时处理相同的或不同的数据。每个流程的第一处理单元的输入缓存器可以是独特的,也可是交叉或共享的。同样道理,最后处理单元的输出缓存器可以是独特的,是交叉的或共享的。通常情况下,每个流程的输入数据是以数据块的方式由数据路径分配法或类似的方法传送。这将在下文中描述。
两个平行流程是同步的,如果每个流程在很大程度上同步,产生由相应输入数据的得来的结果。在这里”很大程度的同步”指两个平行流程的同步滞后是比较小的时间间隔,经常用(时钟)周期单位来测量;同步滞后指的是快流程和慢流程输出结果的时间间隔。两个平行流程是完全的同步,如果同步滞后等于零,如果同步滞后,或以时钟周期测量,或最慢的流程用于产生结果所需的时间相对值来代表都很小,这两个平行流程被认为是几乎同步的。
根据两条流程设计的特点,同步的特性或许也适用单个数据块,一组数据块,或任何其它的部分。同步(完全的或近似完全)可根据平衡流程间的处理需要,进一步在流程内部平行作业,或在快的流程内部引入小的潜伏期。但是后一个选择会没有效或产生副作用,详细的同步范例将在下文提到,图10中讨论。
现在接着讨论亲合力计算器709,多个亲合力引擎既可平行作业,也可按序运行,或两者兼而有之。在某些情形中,多个亲合力引擎可排列成同步的平行流程,因此,每个引擎可以几乎同时完成部分输入数据的亲合力计算。并且根据各种各样的情况,在同一引擎计算的不同亲合力分量也可按序或平行运行。
在某些情形中,为了在亲合力引擎库基本上同时运行和完成亲合力计算,尤其是同一流程的运算,不同的亲合力引擎可能需要不同数量的逻辑门,线路,染色区或其它处理单元;也可有不同的构造,譬如不同的时钟频率,不同的高速缓冲方案,不同的分量布局;甚至可以在不同的媒介中,比如在FPGA对DSP对小ASIC中实现。总的来说,对于一给定亲合力分量的运算越大或越复杂,亲合力引擎就需要更多的处理能力,以便去与其它的亲合引擎平衡时间上的考虑。与此有关的内容将在下文图9a,9b,和10所描述的例子中详细讨论。
根据亲合力特定的存储方法,亲合力计算器709还可包括一个或多个存储部件,用于贮存与亲合力引擎运行有关的特殊数据。这可能包括栅格图的存储,以及与亲合力分量相关的潜在函数的存储。有的时候,亲合力特定数据存储也可包括数字参数,常数,一个或多个数学函数或表示查寻表。亲合力计算器709也可包括合适的数据路径分配法,用于评估和输送这些特殊的亲合力数据,以及由构型数据转化引擎708产生的构型数据。在某些情形中,这些数据路径分配法有时也负责多个亲合引擎运行的时间安排,或明确地平衡把特定大小的数据输送到亲合力引擎库中,以维持(尽可能)流程同步性。
关于构型模拟器702,构型数据转化引擎708,亲合力计算器709,描述符数据储存器720,更详细的讨论将在描述图8时出现。
在某些情形中,构型结果记录711包括有关用于构型评估的亲合力函数的定量测量。这种测量,有时是一种分数,有时是概率,有时是焓,有时是与自由能相关的各种各样的热力学参数值(就是,标准的,微量标准的,非常标准的),有时是药效或活性的测量。构型结果记录711可包括与亲合力力函数有关的定性测量;在一种情形中,它指级别。在另一情形中,它指分类(强,弱,差等等),有时是简单的通过失败测量法,如有活性或无活性。
在很多情形中,构型结果记录711还包括用于指定与亲合力测量有关构型的本质和身份。除了代表相互影响的分子子集的身份和有关的化学物理描述符,它也可以用来附注或代表构型的几何状态。如在前文对几何转换的讨论,构型结果记录,711可用来记录一组几何描述符,或与自由度有关的每个分子子集的状态变量。这样一组几何描述符(可能与每个子集的样板或参考输入结构有关知识)可作为构型的标签,从而区别已经被访问的构型。例如,与两个分子子集刚性体构型变化有关的6个自由度,这个特殊的值可用作适当的构构型标签(在任何一个子集都没有构象变化)。但是,如果用模拟系统700来给构型评价,只有亲合力的测量是必须的。
构型选择器712仪可以用亲合力函数代表构型结构的几何描述符,或其它描述符数据来筛选分子构型。构型选择器712也可包括构型结果处理法,构型选择法运用构型结果处理法对数据库的构型纪录进一步分析,这样构型选择法使用的选择标准根据更多的处理结果做决定。为了把一些构型重新送到模拟器702作进一步的运算,构型选择仪712可用不同的标准对已经处理过的构型重新模拟。
在一种情形中,选择标准可由是否高于界面值或其它定性测量手段决定。有些时候,它则基于一界面值或其它定量方法。另外的时候,构型选择仪712等到一定数量的采样后,把这些构型按亲合力函数排名,然后再选排在前面的X%,X代表0和100之间的数。
在另外一种情形中,选择标准以定量界面值为基线,这个界面值是由对多个分子构型求平均数,中间值,或其它的基于直方图的统计运算而来。另外,构型结果处理法,以及筛选标准,可由对710数据库里众多的构型记录进行统计学分析来决定。这些分析包括但不限于如下内容:主要组分分析,多维整群,Bayesian过滤器、多维分布的回归分析等;也可由对710数据库里的记录进行模式匹配分析来定,分析方法包括但不限于如下内容:神经网络,辅助媒介仪器,隐式Markov模型等等;还可以由构型分组来决定。构型分组把结构相似的构型分到同一组,并根据整群成员的亲合力函数对每个整群成员进行排名和筛选。
在另一种情形中,其中构型模型702使用遗传的或模拟的算法进行构型取样,构型选择器712可以检查许多构型结果的记录,它们代表了具有相应亲合力测量的不同构型的群体,依据相对于其余的群体每一个构型的适合度申请一个选择算符。在另一种情形中,其中构型模型702使用模拟退火或者Monte Carlo方法进行构型取样,构型选择器712可以检查许多构型结果的记录,它们代表了具有相应亲合力测量的不同构型,使用亲合力测量,依据一种或多种可能的分布作出选择。
在一些情形中,构型数据转换引擎708可以从构型选择器712接收某些重新发送的构型,利用它们作为输入,开始一个新的模型计算循环。一旦这样做,依据重新发送选择的构型记录714,确保产生新一代构型(通过转换或从头开始构建)。例如,依据构型选择器712的高亲合力,从数据库710被选择出一个特殊的构型。为了更好研究分子组合那部分可能的构型群,构型数据转换引擎708可以产生多个结构类似的构型(即类似但每个分子子集略有不同)。
在其它情形中,由选择的构型记录714的重新发送引起模型计算的新循环,可包括在不同条件系或不同的控制参数系下构型模型702的操作。进一步的情形中,选择的构型记录714使用构型模型702的不同变量,包括使用不同亲合力的计算器,或者同时使用不同搜索或优化策略,开始新一轮的模型计算。
图8解释了构型模型702的更多细节,与每一种情形相关的嵌入、评价或者分子库筛选。
这里802指输入构型记录,它们或来自输入分子组合数据库或构型选择器或者同时两者,如图7所描述的。输入构型记录802被发送到构型记录转换器804。构型记录转换器804转换输入记录进入分子代表,它作为存储方式使用,与一个或多个输入描述符数据存储器806相关。构型数据转换器也负责分配所有丢失的或从输入构型数据直接衍生的描述符。这里输入描述符数据存储器806分成四个单元,一个输入化学描述符数据存储器808,一个输入物理描述符数据存储器810,一个输入环境描述符数据存储器812,和一个输入结构数据存储器814。在一种情形中,假定相关的化学、物理和环境描述符在同一分子组合的不同构型间将保持不变,但是当分析一个新组合,描述符将更新。而且在一些情形中,在存储器814输入结构参数包含几何描述符,描述每个分子子集的一个或多个初始态,它将作为构型数据转换引擎816的种子。
一个构型数据转换引擎816存取储存在输入描述符数据存储器806的数据,产生一个或多个分子组合构型,构型数据存储器818通过存储分配法,存储每一个构型,一种情形下,将获得特征的专门的分子图象数据结构,如Aguja I文献曾经讨论的与分子代表划分相关的那些结构。注意到构型数据转换引擎816,在构型数据存储器818中,既可以读也可以写。输入描述符数据存储器806和构型数据存储器818的四个单元构成已在图7讨论过的描述符数据存储器(即720)。在一种情形中,输入描述符数据存储器806和构型数据存储器818是将SRAM存储器作为银行工具来使用的。
一种情形中,构型数据存储器818是作为包括一个或多个双缓冲存储器的工具来使用的,以便当其它数据在生成时,下游处理器能运行存储的构型。而且一种情形中,相应于每一个分子子集的数据,一个单独的构型以固定的最大尺寸的数据块形式被读出或写入到构型数据存储器818中,确保有效率的路径操作。此外,来自不同构型的数据块以并行方式同时被读出或写入为了降低操作时间。
预期构型数据转换引擎816,可读回在存储器818中包含一个或多个构型的一个构型数据子集,为了生成新的进一步的构型作为每一次搜索或最优化策略,包含在部分转换引擎816中。一种情形中,构型数据转换引擎816也利用一个或多个随机数发生器,以便构建或转换构型作为每一次随机搜索或最优化策略。
一个亲合力计算器820由多个部件组成,如图8阴影部分所示。一个单元是数据路径分配器821处理与中心处理器(或亲合力)引擎826连接的多重数据路径822的数据配置。数据路径分配器821从构型数据存储器818中记录构型数据,一些情形中,数据被从构型数据存储器818中存取,以数据库的方式类似于讨论过的构型数据转换引擎816所做的数据存取。
一种情形中,数据路径分配器821以数据块的形式分配数据到亲合力引擎826。一个数据块可包括选择和再排列所有或部分数据,这些数据与从存储器818读出的一个或多个构型数据块相关。一个数据块的结构(即在存储器中包含什么数据和怎么排列数据)可依赖于要被它的目的亲合力引擎执行的计算本质。一个数据块可被发送到多于一个的亲合力引擎上,以串行或并行的方式。一些情形中,数据块可包含与不只一个分子子集、不只一个分子构型相关的信息。在其它情形中,数据块可以很小,以致每一个数据块只包含一个数值。两个数据块可包含常用信息,虽然可能被不同排列以满足计划中的亲合力引擎的需要。为一个亲合力计算器的不同单元制备的数据块,可按照不同亲合力分量的不同数据、带宽要求,被区别处理和组织。一些情形中,一个或多个数据块,依据数据路径分配法规定的路径表被传送到亲合力引擎。这里,数据路径表是指数据块到亲合力引擎的传送和路径的时间表。一种情形中,数据路径表类似于交通表,交通被数据块所取代,道路被数据路径所取代,目的地被亲合力引擎所取代。一种情形中,数据路径表本质上是与一个预调的主时钟同步的。在另一种情形中,按照handshaking protocol的协议,数据路径表本质上是异步的,其中一个亲合力引擎能通知数据路径分配器为下一次输入数据块准备好。
例如,考虑图5的氨甲蝶呤配体,倘若蛋白质保持固定,氨甲蝶呤配体可变,依据6个刚体和10个转动自由度,因为图4a-4c标注的组合,它被估计有超过6×1023个可能的构型。尽管不切实际,但是它是可能的,构型数据转换引擎816通过强力搜索产生所有6×1023个可能的构型,更可能的是构型数据转换引擎816通过分子组合分析将决定产生可能构型群的一个子集,虽然这可能还包含了数百万甚至数亿的单个构型。
被评估的构型集可单独提供给构型数据存储器818,也可提供作为一个簇代表体现多个构型特征,多个构型将被数据路径分配器821分离成一个或多个平行流,每一个具有序列数据块的特征,并被安排和指定到下游处理器。例如,构型数据转换引擎816可每次发送数据块到构型数据存储器818,其中数据块代表来自100个构型的所有构型数据集合。然而,继续此例,数据路径分配器821可接着从存储器818提取构型数据形成一个数据块集,每一个数据块包含一百个原子子集,原子子集来自于一个分子子集。另一个可选的例子,每一个数据块可依据从已存储在构型数据存储器818中的10个不同的构型获得的2个分子子集出发,代表可达3个特定的一百个原子子集。
具有典型性的数据路径分配器821将尝试保持多重数据路径822尽可能地完全充满,通过并行发送数据块到每一个亲合力引擎。单个数据块沿一条数据路径传送到它的目的地,亲合力引擎的速度将依赖于与相应数据路径相关的数据带宽和目的地亲合力引擎的处理器性能。一个或多个数据块的排列、尺寸和时间表可以是动力学构型的,因此可以被调整作为具有不同分子子集特征的不同分子组合,或者作为相同分子组合的不同分析,例如与分子模型702的不同迭代循环相关。
在一些情形中,数据路径分配器821,按照存储分配方法,为了满足目的地亲合力引擎826,依据紧密的路径时间表,没有或较少的路径延迟,可高速存储一个或多个数据块。在一种情形中,这样一个高速存储计划,可依据SRAM具有一个或多个专用双缓冲高速存储器。在另一种变化中,另一种情形中,为了减轻潜在数据路径安排问题,如可遇到构型模型的ASIC工具问题,一些或所有数据高速存储器可使用文件寄存器作为实现方式。
数据路径分配器821也与一个或多个专用亲合力数据存储器824联系,它包括一个或多个亲合力引擎826的专用数据。例如,亲合力数据存储器824可包含一个或多个势场函数、探针格栅图、占用三维网格等的数据表示。亲合力数据存储器824也可包含不同的数字常数、数学函数查询表(例如多项式的、三角的、对数的或特殊函数查询表),或其它亲合力一特定的参数或表列函数。在一些情形中,亲合力数据存储器824可在DRAM中存储大的数据构造(因为标准文件I/O可能很慢),而较小的数据单位象查询表和参数可存储在SRAM高速存储器中。在一些情形中,数据路径分配器821可包括一个或多个专用存储控制器去控制在不同的高速缓冲存储器或连接存储器中的读写数据存取。
数据路径822自身负责路径安排和传输由数据路径分配器821发送的数据块到不同亲合力引擎826中。在一些情形中,不同数据路径可有不同带宽,依赖于目的地亲合力引擎的需要和传输数据块的大小。
如以前所讨论的图7是关于亲合力计算器709,亲合力引擎826的银行是一个处理器引擎的集合,每一个引擎致力于执行与一个或多个亲合力分量相关的亲合力计算。在图8中,亲合力引擎826的银行是由N个单独的亲合力引擎组成,分别标为827(第一个引擎)、828(第二个引擎)、829(第N个引擎),在那里省略号代表其它(N-3)亲合力引擎,排列在828和829之间。在一种情形中,专用数据路径到数据路径分配器821连接每一个单独的亲合力引擎。每一个亲合力引擎完成它的计算,结果被提供给一个亲合力分量累加器830。在一种情形中,亲合力引擎826的银行操作并行接收分配的数据块流,由数据路径分配器821并行发送到数据路径822的集合,这样为评估所有构型,传输所需要的尽可能多的数据块完成所有亲合力分量的计算。
在一些情形中,每一个亲合力引擎也可以包括一个或多个内存储器以便合适地存储来自数据路径分配器821的一个或多个到达的数据块。在一种情形中,这样的内输入存储器可以是双缓冲的读写,也可以是SRAN或文件寄存器或一些组合。
如前面所描述的图7,亲合力计算器709依赖于这种情形。图8所示每一个亲合力引擎可进行一个或多个相关的亲合力分量计算或者可以反映亲合力引擎群共享一个或多个公用的数据路径和可能的一个或多个公用的内部输入存储器或它们中的部分,因此更有效地利用可得到的数据带宽。在一些情形中,每一个亲合力引擎826代表一个处理器路径,由一个或多个处理阶段组成,其中每一个阶段在输入数据块的一部分按照紧密路径时间表在路径区间内执行一套计算。
此概念被最好地解释在图9a,它显示了一个亲合力引擎900的总体示意图,它致力于分别计算两个亲合力分量,与vdW和静电作用以及使用场基计算策略相联系。在这个例子中,亲合力引擎可存取所有必要的势场函数数据在探针格栅图和DRAM中,如箭头902所示。而且在这个例子中,亲合力引擎也包括一个内输入SRAM存储器904,其保存的一个数据块由一些采用探针格栅图近似法被存储的势场影响原子组成。
在此例中,亲合力引擎900的处理器被分成两个不同的路径906和914,分别为了vdW和静电作用的路径。每一个路径由一个或多个处理单元组成,每一个相应于一部分计算(即路径阶段)。此例中vdW路径有7个阶段(标为907到913阶段),静电作用的路径有4个阶段(标为915到918阶段)。此例中,所有与单个阶段相关的处理单元在两种路径里以每次10个原子的数据块计算它们自己的计算部分,接收来自前一阶段的输入,输出中间结果到下一阶段(当然除了第一阶段和最后阶段)。进一步,两条路径906和914将并行运行。
在描述两条路径的操作中,假设初始只有907和915阶段并行工作在第一套10个原子的处理中。假设907阶段首先完成,输出数据到908阶段,接着开始它自己的操作。同时907开始计算下一套10个原子。在一些点阶段915完成第一套计算,把数据传到916阶段,接着开始它自己的操作,而915开始计算下一套10个原子。当每一个阶段完成后,它发送数据到下一个阶段,接着继续它自己的运算到下一套10个原子的数据。一旦在每一个路径中最后阶段被完成,两条路径906和914的最后结果发送到一个合适的存储器或累加器,如箭头910和920所示。
假定有足够多的10个原子的数据块可利用来保持每一个路径的稳态运行,最终所有路径阶段在两条路径将被满负荷操作。
典型的目标是设计路径以这样的方法,每一个处理器单元是满负荷操作,运行在稳态,一直保持繁忙。在第一个阶段的开始在一条路径在第一套10个原子和第一套结果输出的时间间隔,也相应于第一套10个原子,在同一条路径来自最后阶段,事实上路径延迟出现在特殊的路径上。
在图9a亲合力引擎900的例子中,为了保持路径流处于稳而满的负荷操作态,内输入SRAM存储器904可以是双缓冲的,意谓着当10个原子的数据块被从第一个(读缓冲器)读取作为当前数据块的一部分,新10个原子的数据块相应于下一个数据块正在被稳定建立在第二个(写)缓冲器,以便一旦第一个数据块被两个路径906和914全部处理完,第二个缓冲器准备运行,两个缓冲器的读写指派被交换。在每一个路径的初始阶段,开始从新数据块计算10个原子的数据块。有许多其它高速存储器的标准情形,将产生类似效率。
在一个亲合力引擎的一些情形中,被包括的路径,例如图9a的906和914,可并行操作,每一个可包括一个或多个专用处理单元谐调工作,其中在任意路径中的每一个专用处理单元可作为下列计算仪器中任何一种而实现:专用的微处理器,FPGA,ASIC,硬件板,DSP,或者它们的任意组合。
作为在亲合力引擎内路径阶段的另一个例子,考虑图9b,描述了一个键-基亲合力引擎950,计算与分子内应变能相关的亲合力分量,应变能依照二次公式与健角变化相联系,在那里Ebend=C1·Kθ·(θ-θ0)2·[1-C2·(θ-θ0)4],C1和C2是常数,Kθ和θ0是由分子力学力场指派的物理描述符,根据包含的共价键类型,θ是由两个相关的键矢量决定的夹角。在图9b中,第一个路径阶段955使用加法器负责计算给定的成键电子对的(θ-θ0)的量值。第二个路径阶段960可能包含一个专用的乘法器得到(θ-θ0)2和第三阶段970可依据第二阶段960构造(θ-θ0)4。在这点上路径可形成这样的分支以便一个阶段974计算C1·Kθ·(θ-θ0)2而其它阶段978同时计算[1-C2·(θ-θ0)]4。来自两个分支的结果可接着在最后一个具有乘法器980阶段重新联合起来,以便获得一个给定的键对Ebend的最终值。而专用乘法器960阶段乘以(θ-θ0)2获得当前键对,专用的加法器950阶段能计算随后的电子对的(θ-θ0),等等。路径阶段按照计算容量和功率被分配以致当一个阶段完成,下一个阶段准备接收新的中间值。在此例中,具有乘法特征的阶段,当与只具有加法的第一个阶段相比,将在每个时钟循环里需要更多的计算路径。
处理流程的实施例在图9a(或9b)已经讨论涉及单个亲合力引擎,其可推广应用到构型模型,用于部分和全部组分。例如,作为构型数据转换引擎816完成产生一个或多个数据块,发送它们到构型数据存储器818,数据路径分配器821可制备和传送一个或多个数据块沿着充分设计的数据带宽的数据路径822,到亲合力引擎826的银行,当构型数据转换引擎816工作产生下一个构型数据块。进一步当数据路径分配器822缓冲或输送到当前数据块,亲合力引擎银行826可处理亲合力分量,作为数据块以前的循环,同时接收当前数据块进入输入高速存储器。在一些情形中,构型数据和亲合力数据块可以是特征数据来自不只一个子集甚至不只一个构型。存在许多不同的情形与具有不同的路径策略作为模型构型,见图8。
在亲合力引擎的一些情形中,与每一条路径相关阶段的处理器资源,可被这样分配以保证路径是同步的,因此并行产生的结果作为同一部分的数据,实质上同时已被定义为并行的路径。例如再一次考虑图9a描述的亲合力引擎900,假定任一数据路径的所有阶段具有相同数量的计算特点。既然路径906包含7个阶段而路径914只有4个阶段,如果这两个路径阶段具有相似处理器性能和容量,那么涉及静电场基亲合力分量处理的914路径将比vdW基部分的906路径较早地完成一套10个原子的给定数据的计算。
在一种情形中,两个路径运行较快的将等待一个时间间隔,此例中是914路径,在完成当前数据段的计算开始下一数据段的计算前,此例中下一套10个输入原子数据被处理时,要保证两条处理器路径同时(或几乎同时)启动下一套数据的计算。然而,这将意谓着两条路径中较快的那条将引入延迟,这样也意谓一条路径没有满负荷操作,因此比可能的效率要低。
在另一种情形中,多重路径是通过平衡处理器要求,使每一条路径保持几乎或完全同步的。图9a的此例中,这意谓着贡献较多或较快的处理器单元到其它较慢的路径。例如,一种情形中,假定两条路径的所有阶段具有等价的计算性能,路径906的处理器单元可调快时钟1.75倍以保证路径906的7个阶段生成一个结果同时914路径的4个阶段提供的输入数据段被两条路径同时收到。另外一个例子,另一种情形中,一个或多个包括在路径906处理器单元可被设计每单元时间执行更多的计算(例如,时钟循环或等价的方法)以保证两条路径是同步的。在一个芯片或FPGA上执行操作的情形中,这意谓着要贡献较多的染色区,较多的逻辑门,较多的处理单元等,到更多计算强度的路径处理器单元。当然,另一种情形也包括在较少计算强度的路径中减慢不同处理器单元的速度。这样的情形在一个给定的亲合力引擎中也可推广到超过两条路径。
一旦一个或多个亲合力分量在一个数据块上计算的部分或全部结果,由图8的单个亲合力引擎827至829生成,这些结果被发送到一个亲合力分量累加器830(图8),即代表亲合力累加法。亲合力累加法负责完成一个或多个构型的亲合力函数的评估即分量值的组成。在一种情形中,分量值的组成是包含每一个亲合力函数分量的数均重量的线性组合。
如以前所讨论的关于图7亲合力计算器709,在一些情形中(包括优先选择的)通过银行826亲合力引擎的平行操作是同步的,因此实际上同时发送数据到亲合力分量累加器840。
在一种情形中,亲合力分量累加器830可平行接收来自每一个亲合力引擎的亲合力分量的结果,可按如下方法操作:相应于一个或多个同步数据块的累加的亲合力函数值,实际上被累加器830同时生成。在其它情形中,累加器830可包括一个或多个可选择的双缓冲输入高速存储器,以便累加器830可工作以路径化方式处理与一个分子构型相关的分量数据,同时亲合力引擎工作在与下一个分子构型相关的下一部分的数据上。在其它情形中,亲合力分量累加器830可并行累加一个或多个构型的亲合力函数。
为了进一步举例说明通过平衡每一条路径的处理需要和多重路径同步相关的不同情形,可见图8单个亲合力引擎类似于图10描述的路径,在那里制定的规定是为了平衡亲合力引擎的处理需要与内部亲合力引擎路径相反,以保证当处理分子构型或组合时,每一个亲合力引擎处于繁忙状态,或者减少延迟。
在图10中,由数据路径分配器1004代表的一个数据路径分配方法,规定包括相关输入数据的数据块输出到表示为1006和1016项的两组亲合力引擎中的每一个。此例中,第一组亲合力引擎1006由两个分离的引擎组成,进行分子间vdW(1010)和分子子集间氢键(1012)的作用的成对的计算。第二组亲合力引擎1016仅由一个引擎组成,依据探针网格图近似,进行分子间静电力(1020)的作用的场基计算。
在此例中,一个累加方法由一套单独的中间累加器1014、1022和一个最后的累加器1040组成,前者贡献于每一组亲合力引擎,后者构造全部的亲合力函数值。所有的亲合力引擎采用分配和累加方式在路径中工作,这样一个数据块被处理,下一个数据块传输至输入每一组亲合引擎指定的高速缓冲存储器中。
在这个例子里,送到第一组亲合器1006的单个的数据块1002包含分子组合中每个分子子集上至100个原子相关的描述符数据。每个数据块包含上至100个原子的相关描述符数据,这100个原子是从分子组合的十个不同的分子构型中每个分子子集中得来(也就是说对于两组100×10原子,每组代表一个分子子集),送到第二个亲合器1016,一个单一的数据块1003包含了相关的描述数据。每个数据块包含分子组合的10种不同构型,上至100个非源性原子的描述性数据(非源性原子是指受到另外分子子集中一个电荷引起静电场影响的原子)。
为了简化在图10中描述的例子,让我们来假设一组亲合器中每个亲合器的计算成本是一样的,(也就是说,vdw计算器1010和氢键计算器1012计算成本是一样的),要完成数据块1002的计算,分子间vdw器计算器1010和分子间氢键计算器1012要处理10×(100×100)对数据,在这个例子中,对数据处理的由1012和1012处理的,处理器成本设为Q,总体成本就为NQ×Q,这里NQ=106是指在数据块1002中处理的数据对要完成对数据块1003的计算,基于场的静电处理器1012要处理10×100原子,在这个例子中,让每个原子在1020处理器的操作成本为P,这种总的成本就为NP×P,这里NP=103是指在数据块1003中处理的原子数。
要使三个处理器所在大约相同时间内得到的输入性数据(也就是说在亲合处理器同步化,NQ×Q和NP×P就是近似平等相等,也就是说,它们之间的比率接近为1,一般来讲,如果不采取特殊的措施,要且让不同处理的负荷平衡是不可能的。例如Q=40时间单位(clock cycles),P=200钟摆,NQ=106和NP=103,则第一组处理器要比第二组处理器慢200多倍。
要通过减少时间Q来而取得对原子在vdw处理器(910)和氢键处理器(912)中的结果可能是不现实的,因为这些处理是受到连续加和乘的步骤的限制,另外一方面,P是很容易增加的,而减缓亲合处理器1020的速度,例如,P中的主要时间长在进入DRAM或等同的贮存器中收回静电势的数据,那就亲合处理器以1/B倍原始速度运行,这里B>1,也就是,要求第二组场基亲合处理器就需要B*P循环而产生,然而,如在目前数字模型中B=10,就意味着第一组亲合处理器1006总体上比第二组慢20倍。
另一种途径是减少在第一组亲合处理器1006总的计算时间。这可以通过用细微平行处理每组配对计算的流水线。让我们假设每对计算所需的时间为Q,而Q是不易缩短的,但vdw配对亲合处理器1010(以及氢键处理器1012)可能包括A>1个不同流程,每个流程取得一对计算的结果在Q钟摆,这样在Q钟摆时间内可以处理A对原子,而在亲合处理器1020只能处理Q/B×P个原子(B是前文中所提到时间减缓系数,本例中引入亲合处理器1020中),如果[NQ×Q/A]和[NP×B×P]的比率是1或很接近1的话,这两个亲合处理器就可说是同时化了,也就是两个亲合处理在大约基本相同的时间由处理完输入数据而得到结果。
我们目前的例子中,如果Q=40钟摆,P=200钟摆,NQ=106和NP=103,那么设计亲合处理器1016和1012时,每个包括20不同的平行流程,就会使两组处理器在处理基本上同一时间由完成对每个组输入数据的处理。(也就是说,同步化了的)。在另一个例子中,Q=25钟摆,P=80钟摆,NQ=106和NP=103,如果A=40,B=125的话,两组亲合处理器也就可以同步化了。
另种情形要涉及减缓流程中的每步和每个处理器采用更多的流程,为了更好地说明这些情况,让我们来重新检查以前提过的例子,与其是用A=40和B=125,我们可以让A=80以及另外每一组亲合处理器的流程中每一步的速度减慢一倍,而还能保持处理器之间的同步。在有些情况下,同样的方法可用于一组处理器中的个别亲合处理器以达到组类处理器之间的运行同步。一种情况是把类似的方法用于保持每个处理器或处理器组中的聚合器组的同步运行。
图10描绘使亲合器同步的一种情况。这里亲和计算器709的部件可以完美地同步,也就是说没有同步延迟,图10也描绘了亲和计算器709的部件,可以接近完全同步,也就是说各处理器几乎在相同时间内完成对输入数据块的处理,在某些情况下,这种基本相同的时间可以等同于一个小于组1毫秒同步延迟的限量。因为对于计算不同分子子集的亲和函数的计算平台或仪器的话,期望其同步延迟小于1毫秒延迟是不太现实的,除非在建造和设计流程时采取措施的保证高忠实度的同步化。在某些情况下,基本相同的时间相当于一个小于或等于十个钟摆的同步延迟限量,这是同计算平台或仪器的基本时间单位相关的。而在另一种情况下,基本相同时间等同于小于或等于一个整数倍的整个流程阶段,在一个多平行性流程中同步延迟限量,其一特例是这个整数倍可以小致为1,而一种情况下,基本相同的时间相当于完成由输入数据块得到结果的最慢的流程的一半。
回到图8,通过多个亲合器826,累积器830运行累积法,单个输入数据块可以强化亲合结果产生的同步化。在另一种情况下,亲合效果的同步化可以在流程的一部份,全部数据块序列上强化,以用来完成对与单个分子构型相关的部份或整个亲合力分量的计算。而在其它情况下,结果的同步化是基于完成部份或全部某种分子组合的亲合参数,还有的情况下,同步化是在接收亲合力分量结果用来计算累积平均数时实行的。在某些情况下,这是由依据一个或多个计算部件动态分派数据传输的频宽和处理器资源和能力,来保持不同分子组合的不同分子子集之间的同步。
一旦一个数据块累加的亲合力函数值的部分或全部结果由图8的累加器830生成,也受结果过滤器840的支配。结果过滤器840可根据输入亲合力函数值应用不同的决定或选择标准,以决定特殊分子构型是否应该被存储在结果数据库图7的710中。原则上,一个特殊的分子构型可证实没有或较弱的键合亲合力,这样相应的分子构型不是进一步分析所感兴趣的,故需要过滤掉这样差的亲合力构型。在一些情形中,结果过滤器可应用选择标准,类似于已讨论过的关于构型选择器712的一个或多个情形。
前面讨论过有关的一些情形,一旦构型结果被存储在结果数据库710中,一个构型选择器712可用来选择一个或多个构型,结果记录再次发送到构型数据模型702作为迭代循环的一部分。具有这样迭代循环的例子包括很多,但并不局限于下面列出的方法,构型数据模型702包括使用一个或多个搜索或优化技术,如:陡降法,共轭梯度法,改性的牛顿法,Monte Carlo,模拟退火法,遗传的或随机的运算法则,强力取样法,模式匹配法等。
现总结包括迭代这样的方法,在迭代循环开始,构型记录被输入到构型数据模型702,接着受一个或多个构型转换支配以便生成一个或多个新构型。一套构型(可能由新的和旧的构型组成)接着受一个亲合力计算器709的支配以便为每一个构型生成亲合力函数。接着作出决定(例如过滤,选择等)涉及产生的构型结果记录和在当前迭代循环中评估的构型子集,它们被选择和重新发送到构型数据模型702中,以便开始一个新的迭代循环计算。处理继续直到满足某些终止条件。终止条件包括:达到一个预定的构型访问量,取得一个预定的迭代数,或者甚至取得亲合力好于某一阈值的许多构型,但并不局限于这些方法。
如上面所讨论的,搜索或最优化策略的选择表明构型取样的方案或时间表(即构造新构型)的本质与构型选择器712的特点。模型系统700能被使用来分析分子组合,其中两个分子子集仅象每个硬体那样,彼此相对移动,即6°自由度。关于两个分子子集的相对转换和取向,此例中,6°的自由度代表分子间的分离距离。第一个分子子集的三个Euler角(即,滚动角、螺旋角、偏航角)和第二个分子子集的两个Euler角(即螺旋角、偏航角)。此例中,构型模型702利用的搜索策略是一个强力搜索,依照一个正常的取样方案,取样6维度的构型空间。
现在的例子是,假定任一子集的螺旋角和偏航角在单位球体的表面取样,作为一套正常的间隔点,分子间分离距离在每个分子子集中心的连线上通过正常空间间隔取样,第一个分子子集的滚动角通过正常的空间间隔、以园的形式取样。此例中,强力搜索策略将访问和评估每一个状态(或元素),上面提到的三个取样方案生成的Cartesian的产品。假定50个径向样品点具有分离的距离,第二个分子子集包含翻滚角100个角度样品点,和1千个样品点成对的螺旋角和偏航Euler角,对于每一个分子子集,数量总数达到由构型模型702访问的50亿个构型。
最初泵入一个输入参考构型,发送到构型数据转换引擎图8中的818,按照取样计划,依次生成第一个取样构型。此构型接着被发送到亲合力计算器709去分析,此例中,有三个亲合力引擎,并参照场基计算方法(如探针格栅图近似,由第二个分子子集的源电荷建造),第一个引擎用于在两个分子子集分子间静电作用的计算,存在一个Coulombic能量模型。第二个引擎依据一个配对计算方法如一个12-6 Lennard Jones势场,用于两个分子子集的分子间vdW的作用的计算。第三个引擎也依据一个成对计算方法用于一个修正的12-10的Lennard Jones势场,致力于计算两个分子子集间分子间氢键作用。
此例中,从每一个分子子集组成达到100个原子的数据块,按照Ahuja I文献的分子表示区分方法,然后发送到亲合力引擎。在此例中有成对基引擎(第二个和第三个),每一个引擎偶尔收到2个数据块,一个是每一个分子子集,而场基第一引擎只收到一个数据块,代表在静电势影响下第一个分子子集达到100个原子,静电势由第二个分子子集生成。亲合力引擎彼此并行操作,路径涉及它们的内部计算与从数据路径分配器821接收到它们的输入,以及它们的亲合力分量输出到累加器830。进一步而言,它们是同步的,以致每一个数据块的亲合力分量结果被同时完成和发送到累加器830中,它们通过合适的每一个亲合力引擎设计实现同步,以保证引擎银行负载平衡的计算和带宽容量。
此例中,亲合力函数值在累加器830中累加,接着受结果过滤器840的一个定量的亲合力阈值支配。一个传输值意谓着一个构型结果记录将被存储在构型结果数据库710中。全部计算循环接着开始一个新迭代或计算循环,其中构型数据转换引擎还产生另一个新的取样构型,一个亲合力函数值被计算,亲合力值的阈值和可能的结果被存储。迭代工艺继续,直到所有取样构型按照前面提到的强力取样方案被访问。结果数据库710可进一步分析,为了确定具有高亲合力的构型。亲合力可代表两个分子子集间有利的键合模式。
在此例的扩展中,代替每次操作一个构型,相应于此例情形的构型数据模型器可同时处理多重构型。特别相关的情形是表征搜索最优化策略如遗传算法,一个分子构型的数量由构型数据转换引擎决定,在每一次迭代中应用交叉和突变算符构造相关数据。接下来数据被亲合力分量引擎银行所分析,为了产生合适的测量值,依据累加的亲合力函数和构型选择器712,应用不同选择算符,以驱动构型数据转换引擎进行下一次迭代。显然这样的例子容易扩展到相应于不同作用包括其它排列和类型的亲合力引擎中。
总之,模拟系统700是一个高效率的用于计算存在与两个或多个分子子集之间亲合力函数的方法,它可作为对一个分子构型的分析一部分。分子组合的分析包括,但不限于,对潜在的分子配合物的形成的预测,对分子子集之间结合亲合力或自由能的估计,对分子配合物结合模式的预测,根据生物活性对分子子集的优先排列,并且包括与药靶/配体衔接记分有关的应用。
模拟系统700包括用于分配一个或多个分子描述符到被抽样的分子构型的输入法,用于储存数据的储存法,用于计算一个或多个亲合力分量的亲合处置引擎,通过多个数据渠道把一个或更多数据块递交给演算法的数据路径分配法,积累各阶段亲合力函数的累积法。
根据各种各样的具体情况,输入可包括输入分子组合数据库(或等效的靶和配体数据库),复试构型纪录,以及转换各种各样的分子转换法。存储法包括一个或更多个用于存储描述符数据(包括化学,物理,几何学/结构,和环境描述符)的一个或更多存储媒介(即SRAM,DRAM,记录文件,等),或在一个或更多存储介质设备(硬盘、记忆棒、计算机可录的媒介,等)。存贮法还提供与亲合力作用的演算有关各种各样的数据存贮,包括数字参量、常数、函数查寻表,甚至栅格图或与亲合力分量有关的函数。
多元计算法包括一个或更多亲合力引擎,每个致力一个或更多亲合力分量的演算。在各种各样的实例中,每个亲合力引擎包括经营平行的一个或更多处理流程,每个处理流程接受沿多元路径来的数据。在某些情形中,不同的亲合力引擎也许被分配到各个独特的亲合力分量,在其它一些实例,一个或更多亲合力引擎也许计算多种处理要求相似的亲合力分量。在其它实例中,为了改进存储并且/或者减少数据带宽,不同的亲合力引擎也许被编组或被安排在一起,所以它们可利用共同的数据块。典型地,描述符数据以一个或更多数据块形式被分配到每个亲合力引擎,和被传输给每个亲合力引擎按照数据路径日程表及数据路径分配法。在某些情形中,数据块代表一个或多个各种各样的分子表示法,这些表示法根据各种各样的构建要求,包括记忆存贮,数据带宽,发送和亲合力处理要求,来修建和预定。个体亲合力分量值(或结果)通常由流程运输方试传输给累积法。累积法包括一个或多个累加器,它致力于各个试样的亲合力函数计算。在某些情形中,计算法和累积法可平行处理多种构型。在别的实例中,输入数据块也许包括一个或多个分子构型的部分或所有分子子集的描述符数据。在其它实例中,一个或更多亲合力引擎可致力处理各个分子子集,无论这分子子集是一个分子构型的全部或一部份。
在某些情形中,亲合力演算法的处理引擎同步程度非常高,这样,累积法在同样时间里收到或预测收到各演算法的结果。如图10所注明,此同步几乎是完美的。更重要的是,同步意味着亲合力引擎之间的滞后非常有限。几个相关的例子已在图10中说明。
对于大量的分子构型,700模拟系统分子组合的分析涉及分子子集的亲和力函数的计算(如虚拟筛选,嵌入,评价等)。关于分子组合分析的实例,700模拟系统可包括基于一个或多个输入参考分子构型的构构型产生法。在某些情形中,新的分子构型也可由更改各种各样的几何描述符的算符而产生。
如前所述,在某些情形中,构型模拟器702在模拟过程中,根据日程表或采样计划,可产生由现有的分子构型转换而来的新构型。实例操作中,转换包括用于遗传算法搜索、优化策略的一元及二元转化,随机生成(可能根据概率偏差分布)的用于Monte Carlo的状态转化函数,或模拟的交合基的搜索或优化战略,或各种各样影响分子刚体自由度的,分子及结构的变化。构型产生法可系列地(一个一个的)组建和传递演算法新的分子构型。构型产生法也可以同时组建多种分子构型和平行地把它们给递交演算法。
就模拟系统700进一步而言,模拟系统700的实例也包括与分析分子组合相关的部分分子构型亲合力函数计算。此系统也进一步包括用于存储分子构型数字记录的结果存贮法。这些数码记录包括一个或更多与分子构型对应的亲合力函数。
另外,700也包括选择法。此法根据选择标准,从结果存贮法的记录中选择一个或更多构型。构型选择法也可运用构型结果处理法对数据库的构型纪录进一步分析,这样构型选择法使用的选择标准根据另外处理的结果做出的决定。各种具体的选择标准及构型结果处理法已在上文描述
就模拟系统700进一步而言,由分子构型选择法选出的分子构型,可由分子构型产生法计算产生新的分子构型。用新选用的分子构型作为输入,这些新的分子构型将构造出,新选用的分子构型再开始新的模拟循环,进行构型模拟,构型选择,反复重复,进一步筛选直到达到最终结果。用于分子组合分析的结构模型具体的循环操作已在前面讨论。
在此,我们描述了一种用于分析和模拟分子组合的新系统,此系统有效的运算两个或两个以上的化学分子多个构型之间亲合力函数。本文描述虽然具体且没有限制。许多的发明对于内行而言显而易见。因此,本发明的范围,不是针对上述说明来确定的,而是要参照以下所附权利要求书及其等值来确定。

Claims (45)

1.一种用计算系统来计算在分子构型的两个或多个分子子集之间亲合力函数的方法,所述分子构型由构型数据组定义,所述方法包括以下步骤:
把与分子构型相关的一个或多个分子描述符分配给所述分子子集,每个分子描述符代表一个分子子集;
在描述符数据存储器中,将已分配的分子描述符保存为分子描述符数据;
用数据路径分配器将所述分子描述符数据分配给多条数据路径;
将所述分子描述符数据从所述描述符数据存储器传输到一个或多个亲合力引擎,其中传输过程使用所述多条数据路径;
由所述一个或多个亲合力引擎生成分子构型的一个或多个亲合力分量结果,其中每个亲合力引擎包括一个或多个处理流程;和
基于由所述一个或多个亲合力引擎生成的并由所亲合力分量累加器接收亲合力分量结果,累加亲合力函数值。
3.如权利要求1所述的方法,其特征在于,亲合力引擎之间彼此同步化以使所述亲合力分量累加器基本上同时从各亲合力引擎接收或被期望接收输入值,所述基本上同时指同步差小于或等于1毫秒。
4.如权利要求1所述的方法,其特征在于,亲合力引擎之间彼此同步化以使所述亲合力分量累加器基本上同时从各亲合力引擎接收或被期望接收输入,所述基本上同时指同步差小于或等于所述计算系统10个时钟周期。
5.如权利要求1所述的方法,其特征在于,亲合力引擎之间彼此同步化以使所述亲合力分量累加器基本上同时从各亲合力引擎接收或被期望接收输入,所述基本上同时指同步差小于或等于跨亲合力引擎的最大处理流程阶段的间隔时间。
6.如权利要求1所述的方法,其特征在于,亲合力引擎之间彼此同步化以使所述亲合力分量累加器基本上同时从各亲合力引擎接收或被期望接收输入,所述基本上用时指同步差小于或等于亲合力引擎的最慢处理流程完成预定量数据处理所需时间的一个预定比例。
7.如权利要求1所述的方法,其特征在于,亲合力引擎之间彼此同步化以使所述亲合力分量累加器基本上同时从各亲合力引擎获得输入,所述基本上同时指同步差小于或等于亲合力引擎的最慢处理流程完成预定量数据处理所需时间的50%。
8.如权利要求1所述的方法,其特征在于,分子描述符包括与所述分子子集相关的一个或多个化学描述符。
9.如权利要求1所述的方法,其特征在于,所述分子描述符包括与所述分子子集相关的一个或多个物理描述符。
10.如权利要求1所述的方法,其特征在于,所述分子描述符包括与所述分子构型相关的一个或多个几何描述符。
11.如权利要求1所述的方法,其特征在于,所述分子描述符包括与分子构型相关的一个或多个环境描述符。
12.如权利要求1所述的方法,其特征在于,所述两个或两个以上分子子集代表分子的一个或多个部分以及分子的周围环境,其中分子自我作用并与其周围环境相互作用,并且为单个分子的不同型态计算所述亲合力函数。
13.如权利要求1所述的方法,其特征在于,所述计算系统被用作分子组合分析的一部分,所述分析包括计算多种分子构型的多项亲合力函数。
14.如权利要求13所述的方法,其特征在于,还包括基于一个或多个参考构型,构建多个分子构型。
15.如权利要求13所述的方法,其特征在于,所述系统并行计算多种构型的亲合力函数。
16.如权利要求13所述的方法,其特征在于,还包括储存多个构型记录,所述构型记录包括一个或多个亲合力函数值,每个构型记录对应于多个分子构型中的一个分子构型。
17.如权利要求16所述的方法,其特征在于,还包括根据应用于多个构型记录的选择标准,选择一个或多个分子构型。
18.如权利要求17所述的方法,其特征在于,用于根据选择标准选择一个或多个分子构型的所述步骤包括采用临界值来筛选每个分子构型的亲合力函数值。
19.如权利要求18所述的方法,其特征在于,所述临界值是根据为多个构型生成的亲合力函数值的统计学特征来确定的。
20.如权利要求17所述的方法,其特征在于,选出有最佳亲合力函数值的分子构型。
21.如权利要求17所述的方法,其特征在于,将分子构型记录根据它们的亲合力函数值排序,并选择排列靠前的多个分子构型。
22.如权利要求17所述的方法,其特征在于,用于选择一个或多个分子构型的所述步骤包括以下步骤:
根据依赖于一个或多个亲合力函数值的概率分布或其它函数,为每个分子构型分配一个概率值或适合度值;
根据概率值或适合度值,随机选择构型。
23.如权利要求17所述的方法,其特征在于,对构型记录的选择基于亲合力函数值以及与其它分子构型的结构相似度两者。
24.如权利要求17所述的方法,其特征在于,作为反馈回路的组成部分,采用选出来的分子构型作为输入,构建新的分子构型。
25.如权利要求24所述的方法,其特征在于,对所述新的分子构型再次进行亲合力函数计算和构型选择,重复此迭代过程,直到达到终止条件。
26.如权利要求17所述的方法,还包括由一个或多个已存储的构型构建新的分子构型,其中所述构建基于由所述选择过程产生的一组指令。
27.如权利要求26所述的方法,其特征在于,对所述新的分子构象再次进行亲合力函数计算和构型选择,重复此迭代过程,直到达到终止条件。
28.如权利要求1所述的方法,其特征在于,用于分配与分子构型相关的一个或多个分子描述符的所述步骤包括从分子机械力场获取预定的数字参数。
29.如权利要求1所述的方法,其特征在于,所述数据路径分配器按照一个或多个数据块,将数据通过多条数据路径传输给所述亲合力引擎。
30.如权利要求29所述的方法,其特征在于,所述数据块的设置使得数据块的边界与分子展示图的分区相符合。
31.如权利要求29所述的方法,其特征在于,根据数据路径日程表,将所述数据块通过所述多条数据路径传送给所述亲合力引擎。
32.如权利要求31所述的方法,其特征在于,所述数据路径日程表是同步的。
33.如权利要求31所述的方法,其特征在于,所述数据路径日程表也是不同步的。
34.如权利要求1所述的方法,其特征在于,所述计算系统被用作分子组合分析的一部分,所述分析包括计算与多个分子构型相关的多项亲合力函数,并且所述数据路径分配器按照一个或多个数据块,将数据通过多条数据路径传送给亲合力引擎,其中所述数据块可以包括来自不同构型的部分输入数据。
35.如权利要求1所述的方法,其特征在于,亲合力分量累加器包括多个中间累加器,每个亲合引擎有一个专用中间累加器,所述中间累加器产生中间累加值,并且由这些中间累加值产生构型的亲合力函数值。
36.如权利要求1所述的方法,其特征在于,每个亲合力引擎专用于计算一个且仅一个亲合力分量。
37.如权利要求1所述的方法,其特征在于,每个亲合力引擎专用于进行涉及一种且仅一种亲合力相互作用类型的亲合力计算。
38.如权利要求1所述的方法,其特征在于,每个亲合力引擎专用于进行涉及一种且仅一种亲合力组合的亲合力计算。
39.如权利要求1所述的方法,其特征在于,每个亲合力引擎专用于进行涉及一种且仅一种亲合力计算策略的亲合力计算。
40.如权利要求1所述的方法,其特征在于,每个亲合引擎专用于针对一个分子子集中的部分或全部的亲合力计算。
41.如权利要求1所述的方法,其特征在于,所述计算系统包括一台或多台通用可编程计算机,所述通用可编程计算机包括用于实现计算平台的软件、专用硬件、固件或其组合。
42.一种用于计算在分子构型的两个或多个分子子集之间亲合力函数的系统,所述分子构型由构型数据组定义,所述系统包括:
构型数据转换器,用于向分子子集分配与分子构型相关的一个或多个分子描述符,每个分子描述符代表一个分子子集;
描述符数据存储器,用于存储代表所述一个或多个分子描述符的分子描述符数据;
一个或多个亲合力引擎,每个亲合力引擎被指定用于计算分子构型的一个或多个亲合力分量,各亲合力引擎包括一个或多个处理流程;
多条数据路径,这些数据路径将所述描述符数据存储器与所述一个或多个亲合力引擎相连,这些数据路径能够将全部或部分分子描述符数据从所述描述符数据存储器传送给所述一个或多个亲合力引擎;
数据路径分配器,用于在所述多条数据路径间分配被传送的分子描述符数据;和
亲合力分量累加器,用于根据由所述一个或多个亲合力引擎生成的亲合力分量结果,累加亲合力函数值。
43.如权利要求42所述的系统,所述亲合力引擎之间彼此同步化,以使所述亲合力分量累加器基本上同时从各亲合力引擎接收或被期望接收输入,所述基本上同时指同步差小于或等于所述计算系统的10个时钟周期。
44.如权利要求42所述的系统,所述数据路径分配器被构建成按照一个或多个数据块,将数据通过所述多条数据路径传送给所述亲合力引擎。
45.如权利要求42所述的系统,所述系统被用作分子组合分析的一部分,所述分析包括计算多个分子构型的多项亲合力函数,而且,
所述数据路径分配器被构建成按照一个或多个数据块,将数据通过所述多条数据路径传送给所述亲合力引擎,所述数据块可以包括来自不同构型的部分输入数据。
46.如权利要求42所述的系统,所述亲合力分量累加器包括多个中间累加器,每个亲合力引擎有一个专用中间累加器,所述中间累加器计算中间累加值,并且由这些中间累加值产生构型的亲合力函数值。
CN2004800351905A 2003-10-14 2004-10-14 计算在分子构型的多个分子子集之间亲合力函数的方法和系统 Expired - Fee Related CN1886659B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US51138703P 2003-10-14 2003-10-14
US60/511,387 2003-10-14
PCT/US2004/033816 WO2005038429A2 (en) 2003-10-14 2004-10-14 Method and apparatus for analysis of molecular configurations and combinations

Publications (2)

Publication Number Publication Date
CN1886659A CN1886659A (zh) 2006-12-27
CN1886659B true CN1886659B (zh) 2010-05-26

Family

ID=34465224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800351905A Expired - Fee Related CN1886659B (zh) 2003-10-14 2004-10-14 计算在分子构型的多个分子子集之间亲合力函数的方法和系统

Country Status (8)

Country Link
US (2) US8036867B2 (zh)
EP (2) EP1673607A4 (zh)
JP (1) JP4934428B2 (zh)
KR (1) KR101129126B1 (zh)
CN (1) CN1886659B (zh)
CA (1) CA2542446C (zh)
DK (1) DK2381382T3 (zh)
WO (1) WO2005038429A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110146453A (zh) * 2019-04-30 2019-08-20 东华大学 染料的筛选方法

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395253B2 (en) 2001-06-18 2008-07-01 Wisconsin Alumni Research Foundation Lagrangian support vector machine
US7421417B2 (en) * 2003-08-28 2008-09-02 Wisconsin Alumni Research Foundation Input feature and kernel selection for support vector machine classification
US7908313B2 (en) * 2004-07-21 2011-03-15 The Mathworks, Inc. Instrument-based distributed computing systems
US7454659B1 (en) * 2004-08-24 2008-11-18 The Mathworks, Inc. Distributed systems in test environments
US7212951B1 (en) * 2004-08-25 2007-05-01 Tripos, Inc. Method for characterizing and analyzing 3-D shapes of molecules utilizing steric multiplets
US20070016374A1 (en) * 2005-07-14 2007-01-18 Locus Pharmaceuticals, Inc. Method, system, and computer program product for identifying binding conformations of chemical fragments and biological molecules
US7880738B2 (en) 2005-07-14 2011-02-01 Molsoft Llc Structured documents and systems, methods and computer programs for creating, producing and displaying three dimensional objects and other related information in those structured documents
US8396671B2 (en) 2006-02-16 2013-03-12 Microsoft Corporation Cluster modeling, and learning cluster specific parameters of an adaptive double threading model
US20070192033A1 (en) 2006-02-16 2007-08-16 Microsoft Corporation Molecular interaction predictors
US8706421B2 (en) * 2006-02-16 2014-04-22 Microsoft Corporation Shift-invariant predictions
US7739091B2 (en) * 2006-03-23 2010-06-15 The Research Foundation Of State University Of New York Method for estimating protein-protein binding affinities
JP4887909B2 (ja) * 2006-05-30 2012-02-29 株式会社日立製作所 シミュレーション用パラメータ決定方法
US20090259607A1 (en) * 2006-11-24 2009-10-15 Hiroaki Fukunishi System, method, and program for evaluating performance of intermolecular interaction predicting apparatus
US8121797B2 (en) 2007-01-12 2012-02-21 Microsoft Corporation T-cell epitope prediction
ES2704743T3 (es) * 2007-05-14 2019-03-19 Schroedinger Llc Función de puntuación de la afinidad de unión que incluye un factor para los entornos del grupo del anillo
DE102008005062B4 (de) * 2008-01-18 2011-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls
US11152081B2 (en) * 2008-02-05 2021-10-19 Zymeworks Inc. Methods for determining correlated residues in a protein or other biopolymer using molecular dynamics
US7890480B2 (en) * 2008-02-11 2011-02-15 International Business Machines Corporation Processing of deterministic user-defined functions using multiple corresponding hash tables
US8559662B2 (en) * 2008-05-06 2013-10-15 Starkey Laboratories, Inc. Genetic algorithms with subjective input for hearing assistance devices
US8359283B2 (en) * 2009-08-31 2013-01-22 Starkey Laboratories, Inc. Genetic algorithms with robust rank estimation for hearing assistance devices
US8589130B2 (en) * 2009-11-11 2013-11-19 Schlumberger Technology Corporation Method of selecting additives for oil recovery
US8912820B2 (en) * 2010-04-02 2014-12-16 Tabula, Inc. System and method for reducing reconfiguration power
EP2558850B1 (en) * 2010-04-15 2017-03-08 Micromass UK Limited Ion mobility method and apparatus for identifying a sample compound
CN102043864A (zh) * 2010-12-30 2011-05-04 中山大学 中药心血管毒性分析的计算机操作方法及其系统
US9858395B2 (en) * 2011-05-23 2018-01-02 Schrodinger, Llc Binding affinity scoring with penalty for breaking conjugation between aromatic ligand groups
JP5467081B2 (ja) * 2011-08-10 2014-04-09 住友ゴム工業株式会社 空気入りタイヤ
US10332619B2 (en) 2014-10-13 2019-06-25 Samsung Electronics Co., Ltd. Methods and apparatus for in silico prediction of chemical reactions
WO2016178972A2 (en) * 2015-05-01 2016-11-10 Schrodinger, Llc Physics-based computational methods for predicting compound solubility
US9805159B2 (en) * 2015-07-02 2017-10-31 Neuroinitiative, Llc Simulation environment for experimental design
US10768935B2 (en) * 2015-10-29 2020-09-08 Intel Corporation Boosting local memory performance in processor graphics
EP4446765A2 (en) * 2016-06-02 2024-10-16 Koninklijke Philips N.V. Dixon-type water-fat separation mr imaging
EP3481389A1 (en) * 2016-07-05 2019-05-15 Akamara Therapeutics, Inc. Evaluation and optimization of supramolecular therapeutics
US10430395B2 (en) 2017-03-01 2019-10-01 International Business Machines Corporation Iterative widening search for designing chemical compounds
EP3659146A4 (en) 2017-07-25 2021-04-21 University of Massachusetts Medical School PROCESS FOR SURVEYING AT LEAST ONE PROTEIN BINDING SITE
CN107423570B (zh) * 2017-08-02 2021-01-08 南昌立德生物技术有限公司 快速准确计算蛋白酶与药物分子之间亲和自由能的算法
US11443834B2 (en) 2018-05-09 2022-09-13 Shenzhen Jingtai Technology Co., Ltd. Automatic conformation analysis method for quasi-drug organic molecules
CN109346135A (zh) * 2018-09-27 2019-02-15 大连大学 一种通过深度学习计算水分子能量的方法
US20200128880A1 (en) 2018-10-30 2020-04-30 R.J. Reynolds Tobacco Company Smoking article cartridge
KR102209526B1 (ko) * 2019-10-21 2021-02-01 주식회사 스탠다임 병렬 연산을 통한 단백질-리간드 상호 작용 분석 방법 및 장치
JPWO2021251413A1 (zh) * 2020-06-09 2021-12-16
WO2022032044A2 (en) * 2020-08-05 2022-02-10 Quantori Llc Multi-reference poly-conformational computational methods for de-novo design, optimization, and repositioning of pharmaceutical compounds
US20230352123A1 (en) * 2020-08-18 2023-11-02 Nnaisense, Sa Automatic design of molecules having specific desirable characteristics
CN112162640B (zh) * 2020-10-13 2022-10-25 深圳晶泰科技有限公司 晶体显示方法及系统
CN112885415B (zh) * 2021-01-22 2024-02-06 中国科学院生态环境研究中心 基于分子表面点云的雌激素活性快速筛查方法
JP2024511077A (ja) * 2021-03-19 2024-03-12 ディ.イー.ショー リサーチ,エルエルシー 多体シミュレーション
CN113421610B (zh) * 2021-07-01 2023-10-20 北京望石智慧科技有限公司 一种分子叠合构象确定方法、装置以及存储介质
US20240296918A1 (en) * 2021-09-28 2024-09-05 D.E. Shaw Research, Llc Joint Generation of a Molecular Graph and Three-Dimensional Geometry
WO2024063584A1 (ko) * 2022-09-21 2024-03-28 (주)신테카바이오 인공지능 신약 플랫폼의 중심원자 벡터 기반 단백질-리간드 간 결합구조 분석 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003081510A1 (en) * 2002-03-26 2003-10-02 Council Of Scientific And Industrial Research Method and system to build optimal models of 3-dimensional molecular structures

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3648253A (en) * 1969-12-10 1972-03-07 Ibm Program scheduler for processing systems
US5095264A (en) * 1990-09-12 1992-03-10 Sundstrand Data Control, Inc. Frequency counter and method of counting frequency of a signal to minimize effects of duty cycle modulation
US5404454A (en) * 1991-02-28 1995-04-04 Dell Usa, L.P. Method for interleaving computer disk data input-out transfers with permuted buffer addressing
JP3528990B2 (ja) * 1995-04-14 2004-05-24 富士ゼロックス株式会社 多体問題用計算装置
US6154643A (en) * 1997-12-17 2000-11-28 Nortel Networks Limited Band with provisioning in a telecommunications system having radio links
US6608514B1 (en) * 1999-02-23 2003-08-19 Kabushiki Kaisha Toshiba Clock signal generator circuit and semiconductor integrated circuit with the same circuit
US6477558B1 (en) * 1999-05-17 2002-11-05 Schlumberger Resource Management Systems, Inc. System for performing load management
WO2002063479A1 (en) * 2001-02-02 2002-08-15 Datasynapse, Inc. Distributed computing system
US6832162B2 (en) * 2001-02-16 2004-12-14 The Trustees Of Princeton University Methods of ab initio prediction of α helices, β sheets, and polypeptide tertiary structures

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003081510A1 (en) * 2002-03-26 2003-10-02 Council Of Scientific And Industrial Research Method and system to build optimal models of 3-dimensional molecular structures

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Lamb等.Design,docking,and evaluation of multiple libraries againstmultiple targets.Proteins:Structure,Function,and Genetics42.2001,296-318. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110146453A (zh) * 2019-04-30 2019-08-20 东华大学 染料的筛选方法
CN110146453B (zh) * 2019-04-30 2020-06-12 东华大学 染料的筛选方法

Also Published As

Publication number Publication date
KR101129126B1 (ko) 2012-06-01
CN1886659A (zh) 2006-12-27
CA2542446A1 (en) 2005-04-28
US8036867B2 (en) 2011-10-11
KR20060123159A (ko) 2006-12-01
JP2007508643A (ja) 2007-04-05
DK2381382T3 (en) 2018-03-05
US20050119837A1 (en) 2005-06-02
EP2381382B1 (en) 2017-12-06
CA2542446C (en) 2014-07-15
EP2381382A1 (en) 2011-10-26
JP4934428B2 (ja) 2012-05-16
WO2005038429A2 (en) 2005-04-28
US20120116742A1 (en) 2012-05-10
WO2005038429A3 (en) 2006-06-08
EP1673607A4 (en) 2009-05-20
EP1673607A2 (en) 2006-06-28

Similar Documents

Publication Publication Date Title
CN1886659B (zh) 计算在分子构型的多个分子子集之间亲合力函数的方法和系统
Yang et al. FitDock: protein–ligand docking by template fitting
US20160292394A1 (en) Method and device for partitioning a molecule
Gill et al. Binding modes of ligands using enhanced sampling (BLUES): rapid decorrelation of ligand binding modes via nonequilibrium candidate Monte Carlo
Maruyama et al. Analysis of protein folding simulation with moving root mean square deviation
Farhadi et al. Computer-aided design of amino acid-based therapeutics: A review
US7890313B2 (en) Method and apparatus for analysis of molecular combination based on computations of shape complementarity using basis expansions
Wodak et al. Critical assessment of methods for predicting the 3D structure of proteins and protein complexes
Mondal et al. Exploring the effectiveness of binding free energy calculations
Astore et al. Protein dynamics underlying allosteric regulation
Guterres et al. CHARMM-GUI-Based Induced Fit Docking Workflow to Generate Reliable Protein–Ligand Binding Modes
US20070254307A1 (en) Method for Estimation of Location of Active Sites of Biopolymers Based on Virtual Library Screening
Sensoy et al. Computational studies of G protein-coupled receptor complexes: Structure and dynamics
US6970790B2 (en) Method and apparatus for analysis of molecular combination based on computational estimation of electrostatic affinity using basis expansions
Jacobsen et al. Introducing the Automated Ligand Searcher
Chen et al. Kinematic vibrational entropy assessment and analysis of SARS CoV-2 main protease
Chauhan et al. Structure-based virtual screening
Dziadek et al. Assessment of Four Theoretical Approaches to Predict Protein Flexibility in the Crystal Phase and Solution
Kellenberger et al. Molecular Modelling of Ligand–Macromolecule Complexes
Singh et al. Running and analyzing massively parallel molecular simulations
Diakogiannaki et al. Computational investigation of BMAA and its carbamate adducts as potential GluR2 modulators
Yeh et al. AN INFORMATION BASED GENETIC ALGORITHM APPROACH TO FAST PEPTIDE DOCKING

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20201014

CF01 Termination of patent right due to non-payment of annual fee