CN1920839A

CN1920839A - 自动生成多维结构活性和结构性能关系的方法

Info

Publication number: CN1920839A
Application number: CNA2006101089997A
Authority: CN
Inventors: 霍尔格·费希尔; 曼弗雷德·坎西
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2005-08-01
Filing date: 2006-07-31
Publication date: 2007-02-28
Anticipated expiration: 2026-07-31
Also published as: CA2553487A1; SG129432A1; US7778781B2; US7400982B2; US20080270040A1; US20070027632A1; EP1762954A2; JP5204385B2; JP2007039458A; CN1920839B; EP1762954A3; EP1762954B1

Abstract

本发明涉及一种自动生成多维结构活性与结构性能关系的方法。

Description

自动生成多维结构活性和结构性能关系的方法

技术领域

本发明涉及一种自动生成多维结构活性和结构性能关系的方法。

背景技术

随着高通量系统(High-Throughput Systems)(HTS)系统的发展和应用，制药工业面临越来越多的需要充分分析所获得的数据的问题。特别是，需要将源于多维数据矩阵的信息转化为化学结构信息。

本发明的目的是，提供一种用于自动发现复杂数据矩阵中潜在相关性的方法。本发明的另一目的是，为使用者提供有关潜在的多维内聚力(cohesion)的化学结构或化学性能信息。通过权利要求的技术特征实现了这些目的。

发明内容

依据第一方面，本发明提供了一种旨在分析化学结构的结构片段对于至少一个生物描述符(descriptor)的影响的方法。

依据第一方面的该方法，其包括步骤：

a)提供有关至少一组化学结构的数据；

b)提供有关至少一个生物描述符(descriptor)的数据；

c)计算对应于每个化学结构的结构片段；

d)将对应于每个化学结构的所述结构片段与所述生物描述符数据联系起来，以获得数据矩阵；

e)分析所述数据矩阵中的数据，考察每个化学结构的片段对于所述生物描述符的影响；和

f)将所述分析的结果呈现出来。

优选地，在步骤e)中，将每个步骤c)中所计算的片段关联到生物描述符数据上。优选地使用部分最小二乘方(partial-least-square)的方法来进行这种关联。可替代地，也可以使用神经网络、多重线性回归、或者辅助向量机。

在本发明第一方面的方法的步骤d)中，优选地，基于预定的支架结构(scaffold structure)来选择该片段。本文中，术语“预定的支架结构”含义是，由该方法的使用者例如药剂师所选择的基本结构，并且这种基本结构的片段是多样的。也可以通过自动搜索最普通的化学亚结构来确定预定的支架结构。另外，本方法包括：在步骤d)中，基于分子片段生成该片段。

依据第一方面的该方法的优选实施方式，在步骤d)之后进行步骤：计算对应于每个片段的物理-化学性能。优选地，步骤e)分析数据矩阵中的数据，考察片段和其物理-化学性能对于生物描述符的影响。优选地，将每个片段的每个物理-化学性能与生物描述符数据关联起来。

依据第二方面，本发明提供了一种旨在分析化学结构的物理-化学性能对于至少一个生物描述符的影响的方法。

依据第二方面的该方法，其包括步骤：

A)提供有关至少一组化学结构的数据；

B)提供有关至少一个生物描述符的数据；

C)计算每个化学结构的物理-化学性能；

D)将每个化学结构的所述物理-化学性能与所述生物描述符数据联系起来，以获得数据矩阵；

E)分析所述数据矩阵中的数据，考察每个化学结构的每个物理-化学性能对于所述生物描述符的影响；和

F)将所述分析的结果呈现出来。

优选地，在步骤E)中，将每个化学结构的每个物理-化学性能与所述生物描述符数据关联起来。

优选地，所述化学结构或片段的物理-化学性能选自于由亲水性、疏水性、电性能、形状、和两亲性组成的组。但是，本发明并不仅限于这些性能。在本文中，可以参考Todeschini，Roberto，Consonni，ViViana，Handbook of Molecular Descriptors，Methods and Principles inMedical Chemistry Vol.11，WILEY-VCH，2000。

依据第一和第二方面的方法，生物描述符数据独立地选自于药理学数据、毒理学数据和药物代谢动力学数据。例如，至少一种生物描述符选自于由与受体活性、选择性、生物利用度、和体内活性相关的描述符所组成的组。但是，这些生物描述符仅仅只是各种优选用于本发明的描述符的实例。下面给出了潜在描述符的其它实例。

与第一方面的方法中相同地，本发明第二方面也优选使用部分最小二乘方的方法来分析数据矩阵中的数据，考察每个化学结构的每个物理-化学性能对于生物描述符的影响(步骤E))。可替代地，如上所述，也可以使用神经网络、多重线性回归、或者辅助向量机。

下面描述了第一和第二方面的优选特征。

优选地，使结果显示为依赖于化学结构和生物描述符的二维特性曲线或矩阵，其中该特性曲线代表了每个片段或每个物理-化学性能对于生物描述符的正面或负面影响。更优选地，使代表每个片段或每个物理-化学性能对于生物描述符的正面影响的那部分特性曲线区别于代表每个片段或每个物理-化学性能对于生物描述符的负面影响的那部分特性曲线而突出显示。最优选地，不同部分显示不同颜色。

第一或第二方面的方法，可以进一步包括步骤：以独立的数据组验证该结果。

依据另一种优选的实施方式，该方法包括步骤：自动生成具有良好多维外形(profile)的新分子。

附图说明

图1显示了三种程序框图，其代表了依据本发明第一和第二方面、以及两方面相组合的方法；

图2更详细地显示了本发明第一方面的一种工序；

图3显示了本发明第一方面的方法的结果的示例性显示；

图4显示了依据本发明选择模型的详细流程图；

图5显示了本发明的计算机实施的输入掩码(input mask)的截屏图(screenshot)；

图6显示了通过本发明的方法所计算的结果的截屏图；

图7显示了通过本发明计算的系数图表的示例性截屏图；

图8显示了如何通过本发明获得片段指纹(fingerprint)；和

图9显示了新产生的分子的等级列表实例。

具体实施方式

下面将更详细地描述本发明的方法步骤。本发明的方法通过数据输入(化学结构和一个或多个生物描述符及其活性)开始。优选地，提供至少三个、更优选五个化学结构作为输入数据。此外，提供生物参数或描述符作为输入数据、和这种描述符的活性。对于每个生物描述符，优选地输入三个活性、更优选五个活性。

基于这些输入数据，依据本发明第一方面的方法，变化化学结构的片段，以获得用于数据分析的各种组，并且对这些不同数据组进行PLS。例如，依据本发明使用了下面的等式：

Y＝a·片段A+b·片段B+...+x·片段N+z(1)

其中Y代表被提供作为输入的生物描述符的活性值，片段A到片段N代表所考虑的片段，a到x为系数，且z为常数。每个参数片段I为1或0，其取决于该片段是否以特定的模型来考虑。

这种通式表明，原则上对于数据分析可以考虑多个片段。但是，实际上所期望的是仅有几个片段，以保持必须的计算量在合理的最小值，并且更重要的是，确保使用者能够解释该结果并且能够确定每个片段的影响和效果。

依据本发明第二方面的方法，也是基于这些输入数据，例如，从数据库中计算或读出该化学结构的物理-化学性能，并且对于这些各种模型进行PLS。例如，依据本发明使用了下面的等式：

Y＝a·性能1+b·性能2+...+x·性能N+z(2)

其中Y代表被提供作为输入的生物描述符的活性值，性能1到性能N代表所考虑的物理-化学性能，a到x为系数，且z为常数。这种通式表明，原则上对于数据分析可以考虑多个性能。但是，实际上所期望的是仅有几个性能，以保持必须的计算量在合理的最小值，并且更重要的是，确保能够解释该结果并且能够确定每个性能的影响和效果。

通常，等式(1)和(2)用于求解出作为输入数据提供的所有活性，也就是，基于可获得的等式(对于每种活性一个等式)计算这些等式的未知系数和常数。

优选地，将系数标准化和集中，以使得它们能够与其它进行比较(因为它们可以具有不同的维数)。

依据本发明，三个方面表明了该模型的质量(也就是三个质量参数)。首先是变量重要性，也就是片段或物理-化学性能的相关性。其次是所计算的系数的绝对值(当使用PLS进行数据分析时)。如果所计算的系数(上述等式(1)或(2)的)很小，相关变量的影响仅仅很小，即使这种变量是一种重要变量时也是如此。第三是所使用的变量(片段或物理-化学性能)的数量。基本上，如上所述，变量的数量应尽可能小，以具有使用者可解释的模型。

现在参照附图更详细地描述本发明，其中：

图1以程序框图的形式显示了本发明的原理。图1中间的程序框图显示了依据本发明第一方面的方法。依据这种方法，提供有关至少一组化学结构的数据作为输入数据。通常通过这种结构数据的提供者的各自代码来识别这种化学结构，例如序列字母和数字；并且将这些代码提供为输入数据。例如在数据库中提供有关化学结构的特定数据，并且通过输入代码可以在数据库中辨别和访问化学结构。此外，将有关至少一种生物描述符的数据提供为另一输入数据。基于这些输入数据，该方法包括两种可替代的实施方式。这两种可替代的实施方式由图1中间程序框图的两个分支所表示。依据左边的分支，从化学结构出发选择和计算分子片段。在随后步骤中，进行数据分析，以将对应于每个化学结构的分子片段与生物描述符数据联系起来，以获得数据矩阵。如图1中所示，优选使用部分最小二乘方(PLS)的方法进行数据分析。最后，将结果显示出来，其将在后面更详细地描述。

在替代实施方式中，使用了基于预定支架结构而选择的片段代替分子片段。此外，在该步骤之后进行数据分析，优选为部分最小二乘方的方法。在图1中所示的最后步骤中，将结果显示出来。

图1在其左边程序框图中也显示了依据本发明第二方面的方法。依据该发面，提供有关至少一组化学结构的数据和有关一种生物描述符的数据作为输入数据。基于这些输入数据，计算每个化学结构的物理-化学性能。图1中各个方框给出了这些性能的一些实例，例如疏水性、亲水性、电性、形状、两亲性等。此外，该步骤之后进行数据分析，优选为部分最小二乘方的方法。在图1中所示的最后步骤中，将结果显示出来。

为了计算物理-化学性能，可以使用标准工具。例如，这样的标准工具为，可以从GMD(Gerber Molecular Design，Amgen，Switzerland)获得的Msrfv1，可以从Daylight Inc.，Los Altos MissionViejo，CA，USA获得的1D-prop或Clogp，可以从ACDLabs(AdvancedChemistry Development，Inc.)，Toronto，Ontario M5H 3V9，Canada获得的pKaDB，或者可以从Roche获得的CAFCA。

PLS优选使用从Umetrics，Inc.Umea，Sweden获得的C-libraries。

图1的右边程序框图中显示了两个方面的组合。基于输入数据(有关至少一组化学结构的数据和有关至少一种生物描述符的数据)，基于预定的支架结构选择片段，并且随后计算每个片段的物理-化学性能。PLS数据分析之后，随后再次将结果显示出来。

如上所述，可以使用依据本发明第一方面的方法，也可以使用结合这两个方面的方法，分析多个生物描述符。其在图2中以示意形式显示。原则上，对于分析可以使用n个生物描述符。图1中给出的实例为受体活性、选择性、生物利用度、和体内活性。

图3中显示了使用了一个以上生物描述符的方法的结果的显示实例。

图3中所示的表格或矩阵在其第二行中显示了用于分析的不同片段。如图3中所示，可以明确地显示部分化学结构。在图3中所示的实例中，使用了在第一行中列出的四种不同生物描述符(pGLYT1，NHP_60，phERG，Mdia_10)。为此，在矩阵中形成区组或群。更详细地，第三到第六栏与改变描述符的第一片段相关，并且随后四栏与改变相同描述符的下一片段相关。

优选地，第二栏显示整个分子的化学结构。但是，为了简化，图3中未显示这些整个分子。

在片段下面的各个栏中显示了数据分析的结果。也就是，在使用PLS进行数据分析的情形中，在矩阵中列出了对应于每个片段、描述符、和分子的PLS结果，也就是PLS系数。除了仅仅列出PLS系数之外，优选地将该系数单独突出显示，以使得使用者可以容易地看结果中的差别，也就是该片段对于生物描述符的不同影响。例如，将具有负号系数的矩阵区域以代表对生物描述符负面影响(例如生物活性减小)的红色(黑/白照片中为黑灰色)突出显示。另一方面，以不同的方式，例如以不同的颜色，另外突出显示正号。在图3中所示的实施例中，以绿色(黑/白照片中为浅灰色)突出显示的区域意味着对生物描述符的正面影响(如心脏安全性增加)。

矩阵中的空白区域含义是，在所测试的化学结构中不存在这些片段。

此外，在用于特定片段的一个矩阵行中的每组区域，依据本发明其代表“片段指纹”。片段指纹代表一个片段对于可与遗传指纹比较的“整个”生物外形的影响。其将在下面参照图8更详细地描述。

图4显示了依据本发明选择模型的详细流程图，优选地使用PLS。下表描述了在该流程图中使用的缩写。

表1：缩写列表

缩写	说明
缩写	说明	#COEFFICIENT(S)COMPONENTENTRIESKL-MODELMODELMODEL SCORENOBSERVATION	...的数目通过PLS分析的VARIABLE的居中的和成比例的系数通过PLS计算的主要组份各个ENTRIES具有一个OBSERVATION和多个VARIABLES(至少3个输入项)产生的模型的序号库存中具有最低得分的MODEL通过部分最小二乘方(PLS)法分析产生的模型各个模型的得分值。表示MODEL(K)的性能。可能的各种计算。应当在输出中显示的最好MODEL的数目从体外/体内药效学、体外/体内药物代谢动力学、体外/体内毒理学、体外/体内安全性或任意物理-化学参数的领域，任意生物观测(Y-值)。即，吸收、生物利用度、分布、清除率、稳定性、分泌物、血脑屏障渗透、脑脊髓液(CSF)水平、对传送装置(如P-gp、OAT、OCT...)的亲和力、药物-药物相互作用(DDI)、微神经元体细胞的稳定性、肝细胞清除率、酶活性、酶选择性、GPCR活性、GPRC选择性、体内活性、体内选择性、离子通道相互作用、膦脂代谢障碍(phospholipidosils)、AMES活性、生殖毒性、致癌性、致畸性、肝脏毒性、光毒性、

PLSRANKV#VVARIABLE(S)VIP

渗透性、膜粘合、logP、HLB、在不同介质中的溶解性...部分最小二乘方(PLS)法分析通过特定等式计算的等级值MODEL(K)的VARIABLE的序号MODEL(K)中所有VARIABLE的数目使用者确定的ENTRY描述符的集合(要求最小数目为1)预测的不同重要性

从图4的流程图中可以看出，将观测项(OBSERVATIONS)输入。可能的生物观测项包括从体外/体内药效、体外/体内药物代谢动力学、体外/体内毒理学、体外/体内安全性或任意物理-化学参数的领域，任意生物观测(Y-值)；例如吸收、生物利用度、分布、清除率、稳定性、分泌物、血脑屏障渗透、脑脊髓液(CSF)水平、对传送装置(如P-gp、OAT、OCT...)的亲和力、药物-药物相互作用(DDI)、微神经元体细胞的稳定性、肝细胞清除率、酶活性、酶选择性、GPCR活性、GPRC选择性、体内活性、体内选择性、离子通道相互作用、膦脂代谢障碍(phospholipidosils)、AMES活性、生殖毒性、致癌性、致畸性、肝脏毒性、光毒性、渗透性、膜粘合、logP、HLB、在不同介质中的溶解性等。

此外，依据图4中所示的优选实施方式，将至少三个输入项(ENTRIES)例如化学结构和至少一个描述符提供为输入数据。基于这些输入数据，通过PLS进行数据分析，并且最后将N种最佳模式的结果输出给使用者。N为使用者所选择的整数数值。

下面显示了输入表格的实例：

表2：输入数据

输入数据(ID)	生物观测项	变量1	变量2	变量3	变量4	...
输入数据(ID)	生物观测项	变量1	变量2	变量3	变量4	...	分子1
分子2							分子1
分子2							分子3
分子4							分子3
分子4							分子5
...							分子5

图5显示了本发明的计算机实施的输入掩码(input mask)的截屏图(screenshot)。在屏幕的左边部分，显示了两个输入或数据提交区域。在左边的提交区域中，输入化学结构的代码。优选地，输入至少三个化学结构、更优选五个化学结构。此外，在两个数据提交区域的左边一个中，输入生物参数或描述符，和这种描述符的活性。优选地，输入三个活性、更优选为五个活性。图5截屏图的右边部分显示的实例，其中输入了11个化学结构的代码，以及对于描述符phERG的11个不同活性。

基于这些输入数据，例如从数据库中计算或读取物理-化学性能，并且对于各种模型进行PLS。在图6中显示了该数据分析的结果。例如，如果仅考虑两种物理-化学性能(例如ClogP和表面积Surface)，上述等式(2)变为如下：

Y＝a·clogP+b·表面积(surface)+c

如果使用了图5中所示生物描述符的第一数值，并且假定clogP＝3.0且表面积＝345²(作为例子)，等式(2)应写成：

7.04＝a·3.0+b·345+c

基于这个等式与对应于其它活性值和参数值的其它等式，需要确定a、b和c。

图6在其上面表格中显示了五种不同模型的结果，也就是该表中所列的序号15到19。通过在PLS中所考虑的变量(如物理-化学性能)的数目(参见该表最右侧栏)，将这些模型彼此区别开。该表第二和第三栏显示了PLS的所计算的回归系数R2和所计算的交叉验证值Q2。为了能让使用者容易地鉴别最好的结果，优选的是，将这些最好结果区别于其它不优选的结果而突出显示。在表6中所示的例子中，将模型16的回归系数R2为0.727突出显示。此外，将模型19的交叉验证值Q2为0.609突出显示。R2和Q2越高，所选择的模型越好。在最后一栏中，将模型18和19突出显示，因为它们由于使用了少量的变量而是优选的。所使用的变量越多，对于使用者来说越难于鉴别哪些参数比其它参数更重要，从而使用者可以更容易地解释该模型。

除了仅仅在表中列出数目以外，图6还显示了也能依据本发明的优选实施方式获得的图解结果。可以将模型总结以不同的图解说明形式显示出来(参见表6下面表格中的第二和第三栏)，并且可以将回归曲线和系数曲线显示出来。

图7中显示了示例性的系数曲线。该实施例是依据本发明第一方面的方法，其中使用了四个片段，并且在表7中显示了这些片段的所计算的系数。对于前三个(片段35、片段47和片段58)该系数为正的，并且对于后一种参数(片段60)所计算的系数为负的。

图8中清晰地显示了不同片段的所计算系数与数据矩阵(参见图3)之间的关系。该图中，显示了四个截屏图。最左边的截屏图为在图7中更详细显示的那个截屏图，也就是片段35、片段47、片段58和片段60的系数。其右边的另一截屏图显示了基于片段35、片段47、片段58、片段60和片段70所计算的模型的系数。更右边的截屏图显示了片段1、片段5、片段6、片段38和片段43的系数。最后，最右边的截屏图显示了片段35、片段58和片段60的所计算的系数。从这些不同的系数值可以清楚地看出，这些片段的影响是不同的。

在也显示于图8中的数据矩阵，将所考虑的片段的计算系数输入。右边组的四个系数0.076、-0.10、-0.230、和0.234与片段47、片段60、片段38和片段35相关联。

如图9中所示，依据本发明的方法进一步包括步骤：将该结果排序。图9显示了所列举的“化学12”到“化学40”的等级得分。对于这些结构，示例性地列出了描述符pGLYT1、NHP_60、phERG、和Mdia_10的计算值。

优选地，将在对于每个化学结构所获得的该数据矩阵中的数据总结在一起，以获得例如通过等式来获得这种化学结构的等级：

等级得分(Ranking_Score)＝a·pGLYT+b·NHP_60+c·phERG+d·Mdia_10

其中权数(weights)a＝1、b＝1、c＝1、和d＝1。该权数不是固定的，且可以调整为任意值。

这样，对于新产生的分子“化学12”到“化学40”，依据本发明获得了其等级。

Claims

1、一种方法，其包括步骤：

a)提供有关至少一组化学结构的数据；

b)提供有关至少一个生物描述符的数据；

c)计算对应于每个化学结构的结构片段；

f)将所述分析的结果呈现出来。

2、权利要求1的方法，其中在步骤e)中，将步骤c)中计算的每个片段与所述生物描述符数据关联起来。

3、权利要求1或2的方法，其中在步骤d)中，基于预定的支架结构来选择所述片段。

4、权利要求1或2的方法，其中在步骤d)中，基于分子片段形成所述片段。

5、权利要求3或4的方法，其中在步骤d)之后的步骤是：计算对应于每个片段的物理-化学性能。

6、权利要求5的方法，其中步骤e)分析所述数据矩阵中的数据，考察片段和其物理-化学性能对于生物描述符的影响。

7、权利要求6的方法，其中在步骤e)中，将每个片段的每个物理-化学性能与所述生物描述符数据关联起来。

8、一种方法，其包括步骤：

A)提供有关至少一组化学结构的数据；

B)提供有关至少一个生物描述符的数据；

C)计算每个化学结构的物理-化学性能；

F)将所述分析的结果呈现出来。

9、权利要求8的方法，其中在步骤E)中，将每个化学结构的每个物理-化学性能与所述生物描述符数据关联起来。

10、权利要求5～9中任一项的方法，其中所述化学结构或片段的所述物理-化学性能选自于由亲水性、疏水性、电性、形状、和两亲性组成的组。

11、权利要求1～10中任一项的方法，其中所述生物描述符数据独立地选自于药理学数据、毒理学数据和药物代谢动力学数据。

12、权利要求11的方法，其中所述至少一种生物描述符选自于由与受体活性、选择性、生物利用度、和体内活性相关的描述符组成的组。

13、权利要求1～12中任一项的方法，其中在步骤e)或E)中使用部分最小二乘方的方法。

14、权利要求1～13中任一项的方法，其中在步骤f)中，将该结果显示为依赖于化学结构和生物描述符的二维特性曲线，所述特性曲线代表了每个片段或每个物理-化学性能对于生物描述符的正面或负面影响。

15、权利要求14的方法，其中使代表每个片段或每个物理-化学性对于所述生物描述符的正面影响的那部分所述特性曲线区别于代表每个片段或每个物理-化学性对于所述生物描述符的负面影响的那部分所述特性曲线而突出显示。

16、权利要求15的方法，其中不同部分显示不同颜色。

17、权利要求1～16中任一项的方法，其进一步包括步骤：以独立的数据组使该结果生效。

18、权利要求14～17中任一项的方法，其进一步包括步骤：将该结果排序。

19、权利要求18的方法，其中将对于每个化学结构获得的数据矩阵中的数据总结在一起，以获得这种化学结构的等级。

20、权利要求1～18中任一项的方法，其进一步包括步骤：自动生成具有良好多维外形的新分子。