CN112992289B

CN112992289B - 小分子激酶抑制剂筛选分子库构建方法及系统

Info

Publication number: CN112992289B
Application number: CN202110315008.7A
Authority: CN
Inventors: 马松龄; 马文志; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-06-23
Anticipated expiration: 2041-03-24
Also published as: CN112992289A

Abstract

一种小分子激酶抑制剂筛选分子库构建方法及系统包括：将分子与单环或双环的骨架进行匹配，匹配后将对应部分作为母核，切开与该母核相连的碳‑杂原子非环单键，对切割后片段进行分拣，分为母核与侧链，根据设定条件筛选侧链，将符合条件的侧链加入侧链库；根据参照分子侧链设置过滤条件进行过滤，从侧链库中取出符合条件的侧链，进行分子生成，将生成侧链拼接到参照分子母核上，建立待筛分子库；上述小分子激酶抑制剂筛选分子库构建方法及系统通过侧链与母核的拆分、分拣、生成、拼接为小分子激酶抑制剂的筛选提供优质的分子来源，通过分子生成对侧链或母核进行扩增，设置过滤条件进行过滤，得到多样性更强的针对特定靶点的定向分子库。

Description

小分子激酶抑制剂筛选分子库构建方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种小分子激酶抑制剂筛选分子库构建方法及系统。

背景技术

现有的药物设计受限于药物化学家的经验和想象空间，往往难以设计出大量的结构新颖的药物分子，设计过程自动化程度不高，效率低下。

发明内容

基于此，有必要提供一种增加多样性的小分子激酶抑制剂筛选分子库构建方法。

同时，提供一种增加多样性的小分子激酶抑制剂筛选分子库构建系统。

一种小分子激酶抑制剂筛选分子库构建方法，包括：

侧链库的构建：将分子与单环或双环的骨架进行匹配，匹配后将对应部分作为母核，切开与该母核相连的碳-杂原子非环单键，对切割后的片段进行分拣，分为母核与侧链，根据设定条件筛选侧链，将符合条件的侧链加入侧链库；

利用侧链库建立待筛分子库：根据参照分子的侧链设置过滤条件进行过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

在优选的实施例中，所述侧链库的构建步骤中，切开与该母核相连的碳-杂原子非环单键时，若切开后形成的少于5个原子则不切割该键；对切割后的片段进行分拣时，符合母核条件的片段分为母核，其余为侧链；所述母核与侧链的条件包括：氢键形成能力、含有环的数量限制、分子量、是否包含特定子结构。

在优选的实施例中，所述母核条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环；侧链若符合以下条件，则加入侧链库：至少含有1个环、分子量小于700、没有磷杂环。

在优选的实施例中，所述利用侧链库建立待筛分子库步骤中，根据参照分子的侧链的化学属性分布范围设置过滤条件，或根据参照分子侧链设置匹配结构对分子中的子结构进行匹配设置过滤条件，从侧链库中取出符合条件的侧链，将取出的侧链通过迁移学习进行分子生成。

在优选的实施例中，所述利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子，参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

在优选的实施例中，所述利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子，参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，形成R1-Rn位点，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出分别符合R1-Rn化学属性分布的侧链，将取出的侧链通过迁移学习进行分子生成，将分别根据R1-Rn生成的侧链分别对应拼接到参照分子的母核对应的R1-Rn位点上，建立待筛分子库。

在优选的实施例中，所述化学属性包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个；所述过滤条件包括：环的数量、芳环数量、可旋转键数量、分子量、氢键供体数量、氢键受体数量、LogP值、TPSA值、与母环连接的原子类型、侧链连接到母环上的第一个原子是否一定要在环中中的任意一种或多种。

在优选的实施例中，还包括：

母核库的构建：（a）将激酶抑制剂结构数据拆分为环与环间直链，保留环上的单链取代基；(b)根据激酶抑制剂母核的化学属性范围设置筛选条件筛选母核；(c)将每个母核上的每个侧链位点拼接一个苯环，将筛选出的母核进行分子生成；重复（a）-(c)步骤直至去重后的母核增长率小于20%，将去重后的母核合并，形成母核库；

利用母核库建立待筛分子库：将母核的子结构与定义好的匹配结构进行匹配或根据设定的化学属性范围进行匹配，根据匹配筛选母核，将筛选出的母核与侧链进行拼接形成待筛分子库。

在优选的实施例中，所述母核库构建步骤中，将取出的母核通过迁移学习进行分子生成，根据激酶抑制剂母核的化学属性范围设置筛选条件包括：必须条件与额外设置条件，所述必须条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环；所述额外设置条件包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个。

一种小分子激酶抑制剂筛选分子库构建系统，包括：

侧链库的构建模块：将分子与单环或双环的骨架进行匹配，匹配后将对应部分作为母核，切开与该母核相连的碳-杂原子非环单键，对切割后的片段进行分拣，分为母核与侧链，根据设定条件筛选侧链，将符合条件的侧链加入侧链库；

利用侧链库建立待筛分子库模块：根据参照分子的侧链设置过滤条件进行过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库；

母核库的构建模块：（a）将激酶抑制剂结构数据拆分为环与环间直链，保留环上的单链取代基；(b)根据激酶抑制剂母核的化学属性范围设置筛选条件筛选母核；(c)将每个母核上的每个侧链位点拼接一个苯环，将筛选出的母核进行分子生成；重复（a）-(c)直至去重后的母核增长率小于20%，将去重后的母核合并，形成母核库；

利用母核库建立待筛分子库模块：将母核的子结构与定义好的匹配结构进行匹配或根据设定的化学属性范围进行匹配，根据匹配筛选母核，将筛选出的母核与侧链进行拼接形成待筛分子库。

上述小分子激酶抑制剂筛选分子库构建方法及系统，根据参照分子利用侧链库，进行筛选、生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库，以生成定向性强的分子库，通过侧链与母核的拆分、分拣，生成、拼接等操作，为小分子激酶抑制剂的筛选提供优质的分子来源。通过分子生成对侧链或母核进行扩增，再设置过滤条件进行过滤，从而得到多样性更强的针对特定靶点的定向分子库。侧链库或母核库可以通过分子生成进行扩增，可以令侧链库与母核库有更多的多样性。

另根据不同药物筛选场景，可选用不同的侧链母核拼接策略，获得多样性更强的针对特定靶点的定向分子库。

根据参照分子或靶点信息构建小分子激酶抑制剂筛选分子库，从参照分子或靶点信息出发，构建的定向分子库更符合特定靶点配体结构的特点，结构多样性也更强。

附图说明

图1为本发明一实施例的小分子激酶抑制剂筛选分子库构建方法的部分流程图；

图2为本发明一实施例的小分子激酶抑制剂筛选分子库构建方法的另一部分流程图；

图3为本发明一实施例的PropAnalyst输出内容示意图，其中频数分布图以LogP属性为例；

图4为本发明一具体实施例的小分子激酶抑制剂的参照分子Mol1的部分分子结构示意图；

图5为本发明一具体实施例的搜索图4的Mol1同靶点分子Mol2的部分分子结构示意图；

图6为图4的小分子激酶抑制剂的参照分子Mol1进行侧链切割的示意图；

图7为图5中搜索的同靶点分子Mol2进行侧链切割的示意图；

图8为本发明另一具体实施例的小分子激酶抑制剂的参照分子Mol1的部分分子结构示意图；

图9为本发明另一具体实施例的搜索与图8的Mol1同靶点分子Mol2的部分分子结构示意图；

图10为图8的小分子激酶抑制剂的参照分子Mol1进行侧链切割的示意图；

图11为图9中搜索的同靶点分子Mol2进行侧链切割的示意图；

图12为本发明一实施例的将分子拆分为环与环间直链的示意图。

具体实施方式

如图1所示，本发明一实施例的小分子激酶抑制剂筛选分子库构建方法，包括：

步骤S101，侧链库的构建：将分子与单环或双环的骨架进行匹配，匹配后将对应部分作为母核，切开与该母核相连的碳-杂原子非环单键，对切割后的片段进行分拣，分为母核与侧链，根据设定条件筛选侧链，将符合条件的侧链加入侧链库；

步骤S103，利用侧链库建立待筛分子库：根据参照分子的侧链设置过滤条件进行过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

如图2所示，本实施例的小分子激酶抑制剂筛选分子库构建方法还包括：

步骤S301，母核库的构建：（a）将激酶抑制剂结构数据拆分为环与环间直链，保留环上的单链取代基（如图12所示）；(b)根据激酶抑制剂母核的化学属性范围设置筛选条件筛选母核；(c)将每个母核上的每个侧链位点拼接一个苯环，将筛选出的母核进行分子生成；重复（a）-(c)步骤直至去重后的母核增长率小于20%，将去重后的母核合并，形成母核库；

步骤S303，利用母核库建立待筛分子库：将母核的子结构与定义好的匹配结构进行匹配或根据设定的化学属性范围进行匹配，根据匹配筛选母核，将筛选出的母核与侧链进行拼接形成待筛分子库。

本实施例的侧链库的构建中：将分子与单环或双环的骨架进行匹配，只要小分子中包含的单环或双环的子结构，认为匹配到单环或双环的骨架。

本实施例的侧链库的构建与母核库的构建不分先后，上述顺序仅为方便表达。

进一步，本实施例的侧链库的构建步骤中，切开与该母核相连的碳-杂原子非环单键时，若切开后形成的少于5个原子则不切割该键。对切割后的片段进行分拣时，符合母核条件的片段分为母核，其余为侧链。

进一步，本实施例的母核条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环。Hinge区为铰链区，铰链区是蛋白激酶中具有高保守性的催化活性结构域，包含ATP结合位点，并通过形成氢键与ATP的腺嘌呤相互作用。“铰链区”中还存在一些其他的功能区域，这些区域的不同构象决定了蛋白激酶处于活性或非活性状态。

进一步，本实施例的根据设定条件筛选侧链，侧链若符合以下条件，则加入侧链库：至少含有1个环、分子量小于700、没有磷杂环。

进一步，本实施例的利用侧链库建立待筛分子库步骤中，根据参照分子的侧链的化学属性分布范围设置过滤条件，或根据参照分子侧链设置匹配结构对分子中的子结构进行匹配设置过滤条件，从侧链库中取出符合条件的侧链，将取出的侧链通过迁移学习进行分子生成。

根据不同靶点的药物筛选特点，通过条件过滤来使用侧链库：通过自动化程序如SideFinder（SideFinder是基于开源化学信息学工具库RDKit，通过Python语言进行自主开发的程序，用于通过设置化学属性对化合物库进行过滤的工具）来设置过滤条件，根据不同药物研发项目的需要，按照参照分子与根据参照分子挑出的分子的侧链情况来设置条件，取用符合条件的侧链。过滤条件有：环的数量、芳环数量、可旋转键数量、分子量、氢键供体数量、氢键受体数量、LogP值、TPSA值、与母环连接的原子类型（例如限定必须是N原子与母环相连）、侧链连接到母环上的第一个原子是否一定要在环中。

还可以使用SMARTS来设置过滤条件。可以根据参照分子侧链通过SMARTS设置表达式，将侧链库的侧链的子结构与SMARTS设置表达式进行匹配以进行过滤，将匹配的侧链从侧链库中取出。

进一步，优选的，本实施例中可以采用LibBuilder（LibBuilder是基于开源化学信息学工具库RDKit，通过Python语言进行自主开发的程序，用于构建激酶抑制剂的侧链库）按照上述的方法构建PKIs（Protein Kinase Inhibitors 蛋白激酶抑制剂）侧链库（总库），以csv的形式输入一组小分子激酶抑制剂的SMILES，输出csv格式的一组侧链SMILES，SMILES中的侧链切割位点以“*”号表示；通过PropAnalyst（PropAnalyst是基于开源化学信息学工具库RDKit，通过Python语言进行自主开发的程序，用于查看化合物库的化学属性分布范围的数值，并进行可视化）用于查看一组化合物的化学属性分布范围，以csv的形式输入一组化合物的SMILES，输出这组化合物的化学属性分布范围，以及分布范围图片（如图3）；通过SideFinder用于通过限定的条件中取出符合条件的侧链/小分子结构，输入输出都是以csv格式保存的分子/侧链SMILES（Simplified molecular input line entryspecification简化分子线性输入规范，一种用ASCII字符串明确描述分子结构的规范)。

进一步，本实施例的利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子（与参照分子同靶点的分子与参照分子具有相同的母核），参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

进一步，本实施例的利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子（与参照分子同靶点的分子与参照分子具有相同的母核），参照参照分子的活性设置高活性阈值（例如pIC50 >= 8），将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，形成R1-Rn位点，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围（例如查看所有专利分子侧链的分子量属性的上限和下限分别是多少），根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件（设置属性范围的上限和下限），或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出分别符合R1-Rn化学属性分布的侧链，将取出的侧链通过迁移学习进行分子生成，将分别根据R1-Rn生成的侧链分别对应拼接到参照分子的母核对应的R1-Rn位点上，建立待筛分子库。可以采用以SMILES形式保存，用于小分子药物的虚拟筛选。

化学属性包括：氢键供体数量，氢键受体数量，分子量，LogP(the logarithm ofthe Partition Coefficient脂水分配系数）值，TPSA（Topological Polar Surface Area拓扑极性表面积）值，可旋转键数量，环的个数，芳香环的个数任意一个或多个。

过滤条件包括：环的数量、芳环数量、可旋转键数量、分子量、氢键供体数量、氢键受体数量、LogP(the logarithm of the Partition Coefficient脂水分配系数）值、TPSA（Topological Polar Surface Area 拓扑极性表面积）值、与母环连接的原子类型（例如限定必须是N原子与母环相连）、侧链连接到母环上的第一个原子是否一定要在环中中的任意一种或多种。

如图4至图7所示，本发明的一具体实施例中，Mol1为小分子激酶抑制剂的参照分子，活性的pIC50值为8.2。搜集该靶点的文件（如专利），从文件中选出活性pIC50值高于8.2的分子。Mol 2为搜集到的分子如搜索专利中分子中活性高于8.2的一个分子代表。对Mol 1以及搜索分子中如搜索专利中分子中活性高于8.2的分子进行侧链切割，得到R1侧链集和R2侧链集。切割方式如图6至图7所示。pIC50是IC50的-log值，IC50是指被测量的抑制剂的半抑制浓度。pIC50可以用来表示药物分子的活性。

通过PropAnlyst对R1侧链集进行分析，环的数量范围限制为[2, 2]，分子量限制为[100, 250], 可旋转键数量为[2,3], 芳香环数量限制为[1,2]。将以上条件输入SideFinder，从侧链库中获取符合条件的侧链，共计421条。通过PropAnlyst对R2侧链集进行分析，环的数量范围限制为[2, 2]，分子量限制为[100, 150], 可旋转键数量为[2,3],芳香环数量限制为[1, 1]。将以上条件输入SideFinder，从侧链库中获取符合条件的侧链，共计213条。将R1和R2随机拼接至母核上，共构成89673个分子。

如图8至图11所示，本发明的另一具体实施例中，Mol 1为小分子激酶抑制剂的参照分子，活性的pIC50值为7.8。搜集该靶点的相关文件如专利，从相关文件中如专利中选出活性pIC50值高于7.8 的分子。Mol 2为搜集到的文件中的分子如搜索的专利中的分子中活性高于7.8的一个分子代表。对Mol 1以及搜索分子如专利文件中的分子中活性高于7.8的分子进行侧链切割，得到R1侧链集和R2侧链集。切割方式如图10至图11所示。

通过PropAnlyst对R1侧链集进行分析，环的数量范围限制为[1, 2]，分子量限制为[100, 300], 可旋转键数量为[2,3], 芳香环数量限制为[1, 3]。将以上条件输入SideFinder，从侧链库中获取符合条件的侧链，共计521条。通过PropAnlyst对R2侧链集进行分析，环的数量范围限制为[1, 1]，分子量限制为[50, 100], 可旋转键数量为[1,2],芳香环数量限制为[0, 1]。将以上条件输入SideFinder，从侧链库中获取符合条件的侧链，共计54条。将R1和R2随机拼接至母核上，共构成28134个分子。

本实施例的激酶抑制剂结构数据可以从公开数据库中进行搜集。

进一步，本实施例的母核库构建步骤中，将取出的母核通过迁移学习进行分子生成。

根据激酶抑制剂母核的化学属性范围设置筛选条件包括：必须条件与额外设置条件。必须条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环。额外设置条件包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个。

迁移学习在预训练模型的基础上，使用少量输入分子对模型进行微调。在使用分子生成进行分子库构建时，对特定靶点的分子进行迁移学习，从而生成对该靶点特异性更强的定向库。

本发明的一套用于小分子激酶抑制剂筛选分子库构建方法，包括激酶抑制剂的侧链库构建与激酶抑制剂母核库构建，通过侧链与母核的拆分，分拣，生成，拼接等操作，为小分子激酶抑制剂的筛选提供优质分子来源。侧链库可应用于小分子激酶抑制剂Me too /Me better药物研发流程中，母核库可应用于小分子激酶抑制剂De novo药物研发流程中。

本发明一实施例的小分子激酶抑制剂筛选分子库构建系统，包括：

母核库的构建模块：（a）将激酶抑制剂结构数据拆分为环与环间直链，保留环上的单链取代基；(b)根据激酶抑制剂母核的化学属性范围设置筛选条件筛选母核；(c)将每个母核上的每个侧链位点拼接一个苯环，将筛选出的母核进行分子生成；重复（a）-(c)直至去重后的母核增长率小于20%，将去重后的母核合并，形成母核库；进一步优选的，重复（a）-(c)直至去重后的母核增长率小于5%，将去重后的母核合并，形成母核库；

本实施例的侧链库的构建模块中：将分子与单环或双环的骨架进行匹配，只要小分子中包含的单环或双环的子结构，认为匹配到单环或双环的骨架。

进一步，本实施例的侧链库的构建模块中，切开与该母核相连的碳-杂原子非环单键时，若切开后形成的少于5个原子则不切割该键。对切割后的片段进行分拣时，符合母核条件的片段分为母核，其余为侧链。

进一步，本实施例的母核条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环。Hinge区为铰链区，铰链区是蛋白激酶中具有高保守性的催化活性结构域，包含ATP（Adenosine Triphosphate三磷酸腺苷）结合位点，并通过形成氢键与ATP的腺嘌呤相互作用。“铰链区”中还存在一些其他的功能区域，这些区域的不同构象决定了蛋白激酶处于活性或非活性状态。

其中，11个氢键供体和受体的SMARTS如下：

[oH0;X2]

[OH1;X2;v2]

[OH0;X2;v2]

[OH0;X1;v2]

[O-;X1]

[SH0;X2;v2]

[#6,#7;R0]=[#8]

[!$([#6,F,Cl,Br,I,o,s,nX3,#7v5,#15v5,#16v4,#16v6,*+1,*+2,*+3])]

[nH0;X2]

[!$([#6,H0,-,-2,-3])]

[$([N;+0;X3;v3]);!$(N[C,S]=O)]

进一步，本实施例的利用侧链库建立待筛分子库模块中，根据参照分子的侧链的化学属性分布范围设置过滤条件，或根据参照分子侧链设置匹配结构对分子中的子结构进行匹配设置过滤条件，从侧链库中取出符合条件的侧链，将取出的侧链通过迁移学习进行分子生成。

根据不同靶点的药物筛选特点，通过条件过滤来使用侧链库：通过自动化程序如SideFinder来设置过滤条件，根据不同药物研发项目的需要，按照参照分子与根据参照分子挑出的分子的侧链情况来设置条件，取用符合条件的侧链。过滤条件有：环的数量、芳环数量、可旋转键数量、分子量、氢键供体数量、氢键受体数量、LogP值、TPSA值、与母环连接的原子类型（例如限定必须是N原子与母环相连）、侧链连接到母环上的第一个原子是否一定要在环中。

通过SMARTS设置分子结构或子结构，定义规则。SMARTS匹配操作可以通过调用开源化学信息学工具包RDKit的功能进行。

进一步，优选的，本实施例中可以采用LibBuilder按照上述的方法构建PKIs（Protein Kinase Inhibitors 蛋白激酶抑制剂）侧链库（总库），以csv的形式输入一组小分子激酶抑制剂的SMILES，输出csv格式的一组侧链SMILES，SMILES中的侧链切割位点以“*”号表示；通过PropAnalyst用于查看一组化合物的化学属性分布范围，以csv的形式输入一组化合物的SMILES，输出这组化合物的化学属性分布范围，以及分布范围图片（如图3）；通过SideFinder用于通过限定的条件中取出符合条件的侧链/小分子结构，输入输出都是以csv格式保存的分子/侧链SMILES（Simplified molecular input line entryspecification简化分子线性输入规范，一种用ASCII字符串明确描述分子结构的规范)。其中，PropAnalyst统计输入分子的化学属性分布，并可绘制直方图。

进一步，本实施例的利用侧链库建立待筛分子库模块包括：搜索与参照分子同靶点的分子（与参照分子同靶点的分子与参照分子具有相同的母核），参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出符合条件的侧链，将取出的侧链通过迁移学习进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

进一步，本实施例的利用侧链库建立待筛分子库模块包括：搜索与参照分子同靶点的分子（与参照分子同靶点的分子与参照分子具有相同的母核），参照参照分子的活性设置高活性阈值（例如pIC50 >= 8），将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，形成R1-Rn位点，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围（例如查看所有专利分子侧链的分子量属性的上限和下限分别是多少），根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件（设置属性范围的上限和下限），或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出分别符合R1-Rn化学属性分布的侧链，将取出的侧链通过迁移学习进行分子生成，将分别根据R1-Rn生成的侧链分别对应拼接到参照分子的母核对应的R1-Rn位点上，建立待筛分子库。可以采用以SMILES形式保存，用于小分子药物的虚拟筛选。

进一步，本实施例的母核库构建模块中，将取出的母核通过迁移学习进行分子生成。根据激酶抑制剂母核的化学属性范围设置筛选条件包括：必须条件与额外设置条件。必须条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环。额外设置条件包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个。

本发明的小分子激酶抑制剂筛选分子库构建方法及系统，可为激酶抑制剂的药物筛选提供侧链库与母核库这两种定向库。根据药物筛选场景的不同（如Me Too / MeBetter 或 De novo），可选用不同的侧链母核拼接策略，并能通过迁移学习的分子生成方法对侧链和母核进行扩增，再通过设置条件进行过滤，从而得到多样性更强的针对特定靶点的定向分子库。

通过构建好的侧链库与母核库，在针对特定靶点的药物研发项目中，根据靶点专利分子的信息，从侧链与母核库中取出适合于该靶点特征的侧链与母核，再结合基于深度学习的分子生成技术，对取出的侧链和母核进行扩增，从而产生针对特定靶点的定向侧链库与母核库，支持激酶抑制剂Me Too/Me Better和De novo的药物研发场景。本发明可以构建针对特定靶点的，定向的侧链库与母核库，缩小了筛选的范围，并且侧链库与母核库可以通过分子生成进行扩增，可以令侧链库与母核库有更多的多样性。

以上述依据本申请的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项申请技术思想的范围内，进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种小分子激酶抑制剂筛选分子库构建方法，其特征在于，包括：

2.根据权利要求1所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述侧链库的构建步骤中，切开与该母核相连的碳-杂原子非环单键时，若切开后形成的少于5个原子则不切割该键；对切割后的片段进行分拣时，符合母核条件的片段分为母核，其余为侧链；所述母核与侧链的条件包括：氢键形成能力、含有环的数量限制、分子量、是否包含特定子结构。

3.根据权利要求2所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述母核条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环；侧链若符合以下条件，则加入侧链库：至少含有1个环、分子量小于700、没有磷杂环。

4.根据权利要求1所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述利用侧链库建立待筛分子库步骤中，根据参照分子的侧链的化学属性分布范围设置过滤条件，或根据参照分子侧链设置匹配结构对分子中的子结构进行匹配设置过滤条件，从侧链库中取出符合条件的侧链，将取出的侧链通过迁移学习进行分子生成。

5.根据权利要求1所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子，参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出符合条件的侧链，将取出的侧链进行分子生成，将生成的侧链拼接到参照分子的母核上，建立待筛分子库。

6.根据权利要求5所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述利用侧链库建立待筛分子库包括：搜索与参照分子同靶点的分子，参照参照分子的活性设置高活性阈值，将分子中的活性高于设定的高活性阈值的高活性分子挑出，进行侧链切割，形成R1-Rn位点，针对不同的侧链位点，分别查看不同的侧链位点的侧链的化学属性分布范围，根据不同的侧链位点的侧链的化学属性分布范围设置不同过滤条件，或根据高活性分子不同位点的侧链设定的以与侧链库中侧链的子结构进行匹配的匹配结构设置过滤条件，根据过滤条件过滤，从侧链库中取出分别符合R1-Rn化学属性分布的侧链，将取出的侧链通过迁移学习进行分子生成，将分别根据R1-Rn生成的侧链分别对应拼接到参照分子的母核对应的R1-Rn位点上，建立待筛分子库。

7.根据权利要求4至6任意一项所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述化学属性包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个；所述过滤条件包括：环的数量、芳环数量、可旋转键数量、分子量、氢键供体数量、氢键受体数量、LogP值、TPSA值、与母环连接的原子类型、侧链连接到母环上的第一个原子是否一定要在环中中的任意一种或多种。

8.根据权利要求1至6任意一项所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，还包括：

9.根据权利要求8所述的小分子激酶抑制剂筛选分子库构建方法，其特征在于，所述母核库构建步骤中，将取出的母核通过迁移学习进行分子生成，根据激酶抑制剂母核的化学属性范围设置筛选条件包括：必须条件与额外设置条件，所述必须条件包括：其子结构能与分别根据11个氢键供体受体设置的匹配结构的任何一个匹配或母核能与Hinge区形成氢键、包含0-5个环、少于5个氢供体、分子量小于500、没有桥环、没有磷杂环、没有1,2,3–三唑、没有四唑、没有10元环以上的大环；所述额外设置条件包括：氢键供体数量，氢键受体数量，分子量，LogP值，TPSA值，可旋转键数量，环的个数，芳香环的个数任意一个或多个。

10.一种小分子激酶抑制剂筛选分子库构建系统，其特征在于，包括：