CN109841263B

CN109841263B - 蛋白降解药物分子库及其构建方法

Info

Publication number: CN109841263B
Application number: CN201910119520.7A
Authority: CN
Inventors: 胡伟; 蔡鑫; 王力强
Original assignee: Moldesginer Co ltd
Current assignee: Moldesginer Co ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2023-08-15
Anticipated expiration: 2039-02-22
Also published as: CN109841263A

Abstract

本发明涉及一种基于E3泛素连接酶的诱导蛋白降解的小分子化合物库及其构建方法。本发明基于人源E3泛素连接酶作为泛素化体系，选取与E3泛素连接酶结合的化合物作为反应物A分子，在考虑成药性和易合成性的基础上利用计算机将药物分子片段B分子组合到A分子上，构建可与E3泛素连接酶结合的诱导蛋白降解的分子库。诱导蛋白降解的化合物可用作靶向泛素化的调节剂，该分子库可用于开发针对癌症、阿茲海默症、肾纤维化、糖尿病和艾滋病等人类重大疾病的药物。

Description

蛋白降解药物分子库及其构建方法

技术领域

本发明涉及计算机辅助化合物分子设计技术领域，具体涉及一种基于E3泛素化酶体系的诱导蛋白降解药物分子库及其构建方法。

背景

人体内的蛋白质降解主要是通过泛素—蛋白酶体系统来实现的。在此过程中，E3泛素连接酶体系组成的复合物包含两个功能结构域：识别目标蛋白和转移泛素至目标蛋白。通过复合物的组装，使得目标蛋白和活化的泛素靠近，从而将泛素转移至目标蛋白上。E3泛素连接酶的关键作用是特异性地使目标蛋白和活化的泛素处于接近的合适空间位置进而泛素化目标蛋白，进而泛素化的目标蛋白可被蛋白酶体识别和降解。因此，利用E3泛素连接酶选择性地标记靶蛋白泛素化是实现特异性诱导目标蛋白降解的优选路径。基于此原理，如果能够利用双功能化合物分子，同时识别并结合泛素E3连接酶和目标蛋白，即可通过泛素E3连接酶将活化的泛素转移至目的蛋白上，实现对目标蛋白的泛素化，被泛素化的目标蛋白可被蛋白酶体降解，而双功能化合物可继续降解新的目标蛋白。这种循环降解目标蛋白的方式实现了依靠少量的靶向诱导蛋白质降解化合物(proteolysis targetingchimera,PROTAC)对细胞内特定蛋白的有效和持续抑制。降解的靶蛋白从最早的甲硫氨酰氨肽酶2、雄激素受体、细胞视黄酸结合蛋白等，到最近的雌激素受体、Tau微管相关蛋白、激酶类等。涉及的疾病包括癌症、类风湿、神经退行性等疾病。

PROTAC的优点是可以有效地抑制目标蛋白，又可以快速降解清除。其理论上只需要催化量的药物，就可以降解细胞内几乎所有的蛋白质(包括膜蛋白)，故具有较高的安全性、耐药性和广阔的应用前景。由于具备上述优势，基于泛素E3连接酶开发靶向诱导蛋白质降解化合物可充分探索细胞内的非酶蛋白靶标，极大拓展靶标范围，特别有利于首创药物的研发。从结构单元上而言，诱导蛋白质降解化合物包含三个单元：负责结合特定E3连接酶的识别单元、负责结合目的蛋白的配体和合适的连接链。其发现的基本思路是将可用的E3连接酶的识别单元和目的蛋白的配体进行组合和连接。由于PROTAC由三个单元组成的设计理念，这极有可能导致最终获得的化合物分子有相对较大的分子质量、较多的可旋转键和较多的氢键受体和供体，因而其水溶性、口服吸收和透膜性都较差，此外在合成生产中，导致其可合成性低、合成成本高，很难满足传统意义上成药分子的需求。

目前，由于蛋白—蛋白结合的复合物难以获得，除了基于链接双靶点抑制剂分子设计，并没有好的设计、筛选方案，且设计的蛋白降解分子的合成代价高、分子量大、成药性差。另外，目前已知的一些化合物数据库中，只存在较少的潜在分子，如ZINC中，以沙利度胺为子结构，检索基于CRBN结合的潜在蛋白降解分子，但只发现了3个含沙利度胺为头部子结构的分子。目前尚未发现有多样性较为丰富的针对蛋白降解分子开发的小分子数据库。此外，如何考虑分子库中测试分子的可合成性与成药性也是目前的难点。

发明内容

本发明通过构建蛋白降解药物分子库，有效解决了诱导蛋白降解药物发现过程中存在的无新结构备选分子库可用，以及目标化合物的可合成性和成药性差等问题。

本发明提供一种蛋白降解药物分子库的构建方法，其包括以下步骤：

(1)从化合物数据库上搜索获取具有成药性的且易于获取的药物片段数据库，并存储药物片段分子相关信息；

(2)根据文献确定与E3泛素连接酶可结合的分子片段，得到分子库的核心骨架，从化合物数据库上搜索含核心骨架的化合物，且这些化学物与E3连接酶结合后空腔外侧这些化合物尾部应具有易于反应的基团；

(3)构建E3连接酶结合的化合尾部基团可参与的反应，将原子映射数添加到两侧出现的原子，映射反应物的原子与产物的原子之间的对应关系，使用SMARTS、Value信息定义反应基团，以此识别反应基团和反应位点；

(4)对于每个反应类型，创建一个反应库，筛选可参与反应的试剂，每个反应库都在一个单独的子目录中，得到可参与反应的试剂的SMILES格式；

(5)连接多个反应具有相同名称的列(如果列类型不同，则列类型是两个输入列类型的公共基本类型)。如果一个输入表包含其他表不包含的列名，则列可以填充缺失值或过滤掉，即它们不在输出表中。每个在单独目录中给出的反应库将合并到单个反应库中；

(6)在反应库中，使用化学信息学工具Search FTrees Fragment Space基于E3泛素连接酶结合的化合物作为子结构查询相似分子，对于每个查询将发现有限数量的最佳匹配相似分子结构、SMILES、合成化合物商品编号；

(7)将(8)中查到的相似分子作为输入重复以上查询过程，直至遍历数据库所有组合分子结构，分子数量不再增加，合并所有得到的相似化合物的分子结构输出为SDF或其他结构文件，得到基于E3泛素化酶的诱导蛋白降解化合物的分子结构数据库。

步骤(1)中的化合物符合“5规则”和Verber标准：分子量不超过500道尔顿，脂水分配系数的对数值不超过5，氢键给体(包括羟基、氨基等)的数量不超过5个，氢键受体的数量不超过10个，可旋转键的数量不超过10个，极性表面积不超过步骤(1)所述的药物分子片段库来源是依据分子片段来源可靠性、可成药性、可合成性或易通过较低价格通过商业获取的原则，将各类药物分子片段纳入分子片段库。

步骤(1)中的药物分子片段库可采用Enamine、IBScreen等数据库的药物分子片段，可以是这些化合物数据库中一种或几种的组合。

步骤(1)所述存储的化合物相关信息包括：分子结构、商品编码。

优选的，考虑分子的易合成性，步骤(2)中选用尾部反应基团为带有氨基、羧酸、卤素等易于发生反应的药物片段分子。

优选的，步骤(3)中采用化学反应可视化工具构建化学反应，化学信息学工具为Marvin。优选的，考虑分子的易合成性，步骤(3)中化学反应可定义为常见的易发生的化学合成反应，如卤素化物单取代反应、羧基和氨基缩合反应。

步骤(4)中记录的反应库信息包括化学反应类型、原子映射、反应物SMILES、反应位点。步骤(6)或(7)中查询获取分子结构、合成分子结构、相似度、化学反应类型ID、反应物A商品编号及结构、反应物B商品编号及结构。

本发明还提供一种上述方法建立的诱导蛋白降解药物分子库。

本发明提供的诱导蛋白降解化合物的分子结构数据库及其建立方法具有以下有益效：

1.本发明提供的E3泛素连接酶的蛋白降解药物分子库不仅通过限定反应试剂为具有成药性的片段，且限定了分子由两部分组成，得到的分子库药分子的分子量小、成药性高；

2.通过SMARTS、Value信息定义反应位点和基团考虑了化合物的可合成性和易合成性，有助于用户基于上述数据库得到的目标化合物分子进行有机合成设计时避免了大量不合理的合成路线，得到实际可行并且较简单容易的反应路线；

3.所述的分子数据库中包括化合物SMILES、合成原料、可用于购买的化合物编码信息，有助于根据化合物商品编码可直接购买目标分子化合物或者通过反应试剂商品编码购买试剂根据反应式通过较简单的反应步骤合成蛋白降解分子；

4.提供了一种蛋白降解药物分子库，所含分子成药性高、易合成，可用于开展诱导蛋白降解药物的高通量分子虚拟筛选等研究。

附图说明

为能更清楚理解本发明的目的、特点和优点，以下将结合附图对本发明的较佳实施例进行详细描述，其中：

图1是本发明蛋白降解药物分子库的构建方法的一种流程示意图；

图2是本发明实施例中从文献中获取的与E3泛素连接酶结合的化合物的核心骨架a～i及R基团；

图3是本发明实施例中一种与E3泛素连接酶结合的化合物的核心骨架b中的化学反应定义；图4是本发明实施例中查询一个含b核心骨架的分子得到的前3个相似分子，包含查询分子结构(Query Molecule)、合成分子结构(Hit Molecule)、相似度(Similarity)、化学反应类型ID(Reaction ID)、反应物A商品编号及反应结构(Reagent 1)、反应物B商品编号及反应结构(Reagent 2)。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例一种适用于诱导蛋白降解药物分子库构建方法，如图1所示，其包括以下步骤：

基于“5规则”和Verber标准：分子量不超过500道尔顿，脂水分配系数的对数值不超过5，氢键给体(包括羟基、氨基等)的数量不超过5个，氢键受体的数量不超过10个，可旋转键的数量不超过10个，极性表面积不超过从化合ENAMINE物数据库上搜索获取具有成药性的且易于获取的药物片段数据库，得到153928个符合标准的药物分子片段。

将分子片段存储形式为SMILES格式，包括化合物产品编码，如Clc1c2ncccc2c(F)cc1EN300-95940。得到反应物B分子库。

根据文献报道以及晶体数据库结构获取与E3泛素连接酶具有结合力的分子片段，得到分子库的核心骨架，如图2所示。

从Enamine化合物数据库上搜索含核心骨架的化合物，得到反应物A分子库共计130个分子，其中含各核心骨架的分子：a 0个，b 76个，c 4个，d 12个，e 21个，f10个，g6个，h 1个，i 0个。

基于上述反应物A分子，挑选E3泛素连接酶结合的化合尾部基团可参与的反应。采用化学信息学工具Marvin构建常规易发生的化学反应式，主要以卤素化物单取代、羧基和氨基缩合等易发生的反应为主。

将映射数”mapping atoms”添加到两侧出现的原子，映射反应物的原子与产物的原子之间的对应关系，使用SMARTS、Value信息定义反应基团，以此识别反应基团和反应位点。将化学反应式转换为RXN格式。

以含b为核心骨架的其中一个分子为例，该化合物含氨基，易与羧酸基团发生缩合反应，故定义该分子与反应试剂中含有羧酸基团的化学物反应，如图3所示，将所有不在产物中离去的原子定义其原子映射数1～16，定义A反应物的反应基团Value为Amine.primary，定义B反应物的反应基团SMART为O；D1,定义羧酸基团连接的原子Value为Heavy.atom。

对于定义的化学反应，将其转换为RXN格式输出。

使用化学信息学工具Reaction Library Synthesizer创建一个反应库，以药物分子片段库作为反应物B，读取反应物B的SMILES文件，构建反应信息。

每个反应库都在一个单独的子目录中，得到可参与反应的试剂的反应库信息包括化学反应类型、原子映射、反应物SMILES、反应位点。

连接多个反应具有相同名称的列(如果列类型不同，则列类型是两个输入列类型的公共基本类型)。如果一个输入表包含其他表不包含的列名，则列可以填充缺失值或过滤掉，即它们不在输出表中。每个在单独目录中给出的反应库将合并到单个反应库中。

在反应库中，使用化学信息学工具Search FTrees Fragment Space基于核心骨架分子作为子结构搜索相似分子，参数设置：Similarity threshold＝0，Target similarity＝1.0，Total diversity＝1.0，Maximum number of results＝100000。对于每个查询，将发现有限数量的最佳匹配相似分子结构、SMILES、反应物商品编号；如以含b核心片段的分子作为输入查询分子，组合共3235个目标分子，其中第一个分子如图4所示。

将上步中查到的目标分子作为输入结构，重复上一步骤查询与组合过程，直至遍历数据库所有组合分子结构，分子数量不再增加。合并所有得到的相似化合物结构输出为SDF文件格式得到基于E3泛素连接酶的诱导蛋白降解化合物的分子结构数据库，包含查询分子结构(Query Molecule)、合成分子结构(Hit Molecule)、相似度(Similarity)、化学反应类型ID(Reaction ID)、反应物A商品编号及反应结构(Reagent 1)、反应物B商品编号及反应结构(Reagent 2)。

效果实施例根据本发明提供的方法建立的诱导蛋白降药物分子库包含85943个能与E3泛素连接酶结合的分子组成的诱导蛋白降解的化合物。这些分子都商业可得或可根据缩合、取代等简易反应快速合成，基于药物分子片段的两部分片段组合使得这些化合物具有较高的成药性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于E3泛素连接酶的诱导蛋白降解药物分子库的构建方法，包括以下步骤：

(1)从化合物数据库上搜索获取具有成药性且易于商业获取的药物片段分子库，并存储药物片段分子相关信息；

(2)根据文献确定与E3泛素连接酶可具有亲和力的分子，组成核心骨架，从化合物数据库上搜索含核心骨架的化合物，且这些化学物与E3连接酶结合后结合区域外侧应具有易于反应的基团；

(3)构建E3泛素连接酶结合的化合尾部基团可参与的反应，将原子映射数添加到两侧出现的原子，用SMARTS、Value信息定义反应基团；

(4)对于每个反应类型，创建一个反应库，筛选可参与反应的试剂，每个反应库都在一个单独的子目录中，得到可参与反应的试剂；

(5)连接具有相同名称的列，将所有类型反应库合并到单个反应库中；

(6)在反应库中，以E3泛素连接酶结合的化合物作为子结构构建降解分子，使用化学信息学工具Search FTrees Fragment Space搜索相似分子，对于每个查询将发现有限数量的最佳匹配相似分子结构、SMILES、合成化合物商品编号；

(7)将(6)中查到的相似分子作为输入重复以上查询过程，直至遍历数据库所有组合分子结构，分子数量不再增加，合并所有得到的相似化合物SMILES，得到基于E3泛素连接酶的诱导蛋白降解化合物的分子结构数据库。

2.根据权利要求1所述的蛋白降解药物分子库的构建方法，其特征是获取化合物的过程包括：基于E3泛素连接酶结构选择与其具有亲和力的结合片段作为反应物A，根据成药性规则选取药物分子片段结构作为反应物B，选取易发生发反应式定义化学反应式筛选出可参与反应的分子进行组装，生成能与E3泛素连接酶结合的诱导蛋白降解的化合物。

3.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(1)中存储的化合物相关信息包括：分子SMILES、商品编码。

4.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(3)中选取易发生的反应作为反应类型输入，考虑目标分子的可合成性。

5.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(3)中反应式标记的原子的映射数识别反应物原子与产物原子之间的对应关系，SMARTS、Value信息识别反应基团和反应位点。

6.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(6)中采用化学信息学工具Reaction Library Synthesizer对化合物进行判定，获取可基于定义的易反应的化合物作为反应物B、反应类型、反应基团。

7.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(4)中采用化学信息学工具Search FTrees Fragment Space对反应物进行相似性搜索并组装，获取组合分子结构。

8.根据权利要求1或2所述的蛋白降解药物分子库的构建方法，其特征是步骤(7)中记录分子的信息包含查询分子结构(Query Molecule)、合成分子结构(Hit Molecule)、相似度(Similarity)、化学反应类型(Reaction ID)、反应物A商品编号及结构(Reagent 1)、反应物B商品编号及结构(Reagent 2)。