CN111415702A

CN111415702A - 建立分子结构与活性数据库的方法

Info

Publication number: CN111415702A
Application number: CN202010140921.3A
Authority: CN
Inventors: 牛春意; 方磊; 徐旻; 温晓明; 齐珍珍; 张佩宇; 马健; 温书豪; 赖力鹏
Original assignee: Xtalpi Inc
Current assignee: Xtalpi Inc
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-14
Anticipated expiration: 2040-03-03
Also published as: CN111415702B

Abstract

本发明提供建立分子结构与活性数据库的方法，从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息，按照需求将外部数据转换成为标准化格式；对数据进行校验核对确保数据的准确性；将校验通过存储的临时文件，上传至MongoDB数据库中；用户通过SDK向数据检索模块发送检索请求，根据用户的需求选取某一特定的靶点，提取包含该靶点的全部数据；调用Jupyter中的构效分析模块，根据用户所输入的母核结构以及相似度的要求，对该结构与数据库中的结构进行亚结构匹配以及相似度比较计算。本发明适用于计算机辅助药物设计以及虚拟筛选等药物筛选，实现了半自动化收集数据以及清洗数据生成标准化数据库。

Description

建立分子结构与活性数据库的方法

技术领域

本发明属于数据处理技术领域，具体涉及一种建立分子结构与活性数据库的方法，主要应用于新药研发领域，为计算机辅助药物以及虚拟筛选领域的应用提供了良好的数据支持。

背景技术

药物筛选是药物发现的最初阶段和关键步骤，在新药发现的过程中占有重要的地位。但是传统筛选实验往往筛选时间长、成本高。因此，随着计算机技术的发展，虚拟筛选逐渐被发展起来。虚拟筛选方法的开发、优化和以及具体的应用到实际的场景当中，是需要大量的优质数据包括较为多样的化合物结构、统一准确的活性数据等。目前常用的包含这些数据的数据库主要有公开的分子数据库Chembl以及付费的数据库等。与此同时，在药物设计的过程中，对于同一靶点不同化合物之间的构效分析是有很重要的作用。但目前，针对同一个靶点往往有大量的专利以及文献中所报道的化合物结构与活性数据。对这些数据进行分析整理往往费事费力，但市场上缺少一个合适的分析软件能快速的对其进行分析解读。

现有的数据库往往存在以下弊端：

(1)公开的数据库的数据更新不够及时，而新药研发是一个不断发展变动的过程，因此一两年的数据延迟，可能会漏掉一些非常重要的信息，对于计算的准确性往往有所影响。

(2)付费的数据库的数据，相比于公开数据库尽管数据更新的更加及时，但是往往参数过多，不能直接使用，需要进一步的清洗。

(3)从不同地方所收集的数据库的数据格式往往有所不同，因此想要把他们合并一起使用，需要大量的数据清洗和整理工作，会浪费大量的时间以及人工成本。

(4)单一的数据库没有办法验证数据的准确性，难以确保数据的准确性。

(5)现有的数据库缺少针对同一靶点之间不同药物分子的构效关系分析，不利于对后期对此类数据的使用。

发明内容

针对上述技术问题，本发明提供一种建立分子结构与活性数据库的方法，应用于新药研发中药物设计过程的数据收集与清洗。该方法主要包括通过对现有数据库的数据进行收集构建待用的数据源，后通过工具脚本提取待清洗数据源中的有用数据。在建立的数据库的基础上，从中提取同一靶点的数据，通过调用Jupyter的脚本以及用户的输入，进行简单的构效分析，为后续的药物设计工作提供分析思路。

所采用的技术方案为：

建立分子结构与活性数据库的方法，包括以下步骤：

(1)数据的采集

从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息。方法主要是通过自动收集以及主动上传两种方式进行数据收集，收集后的数据上传至临时文件中。

(1.1)自动收集主要是从开源的数据库Chembl，首先确定所选择靶点的UniprotID，根据ID可以锁定准确且唯一的靶点，后利用python网络爬虫技术进行自动收集生成原始数据。

(1.2)主动上传主要是针对付费数据库，这类数据库无法使用python网络爬虫技术，只能通过手动下载后，再将数据由本地进行上传。

(2)数据清洗

不论是自动收集或主动上传，数据的来源不同导致数据的参数等会有所差别。同时，并不是所收集得到的所有数据都是被所需要的，以及数据会存在错误，因此会对数据进行清洗，得到统一的标准化数据。数据清洗模块会按照需求将外部数据转换成为标准化格式。

主要的清洗标准：

A、根据不同数据库所获得的原数据，调用不同的数据清洗模块。数据清洗模块会根据不用的数据内容以及标记类型，调用相对应的解释器。

B、包括分子结构数据解释器、分子实验活性数据解释器等。

C、用过Jupyter调用筛选模块，过滤掉一些不符合标准的分子。筛选标准主要包括分子的活性测试方法(酶活或细胞活性)、分子的活性表示方法(是否是准确值)以及数据的来源等标准。

D、解释器根据所规定的标准化格式，将数据逐一匹配，匹配成功的，就将数据存储在内存相应的数据结构中。

(3)数据校验

由于现有的数据库中的数据也多是通过图片或关键字识别抓取文献中的信息所得，在数据生成以及数据存储的过程中也可能存在一些错误。因此，通过对不同数据库的数据进行校验核对还确保数据的准确性。

(3.1)数据清洗后，调用数据校验模块，将需要校验的数据由清洗模块系统传入数据校验模块。

(3.2)在校验模块中，逐条对数据进行校验。首先数据类型，根据数据类型读取不同的校验规则。对于同一个分子，如果活性测试类型一样，但是存在多条数据的情况。若数据之间差值不超过规定范围则取平均值，若相差超过规定范围，则输出提示后，并将数据来源的文献下载输出供人工查验。

(3.3)按照校验规则逐一匹配需要校验的数据，校验完成后通过校验的数据会被模块持久化到临时文件系统当中。

(4)数据检索

将校验通过存储的临时文件，上传至MongoDB数据库中，供后续使用。用户可以通过SDK向数据检索模块发送检索请求，其中包括了要查询的数据表、分子结构、字段和查询条件。数据检索模块会将请求转化成可识别语句，访问数据库得到结果。结果将返回数据检索模块后传给用户SDK，最终完成检索。

(5)构效分析

根据用户的需求通过上述的数据检索方式，可以选取某一特定的靶点，提取包含该靶点的全部数据。后调用Jupyter中的构效分析模块，根据用户所输入的母核结构以及相似度的要求，对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。

(5.1)对数据库中的分子进行亚结构匹配，调用rdkit中的亚结构匹配模块，匹配所有包含该结构的亚结构。

(5.2)将匹配到的分子结构转化成为分子指纹，后计算其Tanimoto相似度与用户需求进行匹配。

(5.3)在满足匹配要求的化合物当中，利用rdkit化学工具包取代侧链模块以及取代基转换模块，对取代基团以及取代位点进行切割、转换、分类。最后列出SAR列表便于用户对结构以及活性进行比较分析。

本发明提供的建立分子结构与活性数据库的方法，具有以下技术效果：

本发明提供了一套完整的标准化建立小分子抑制剂的活性数据库的方法，适用于计算机辅助药物设计以及虚拟筛选等药物筛选领域，实现了半自动化收集数据以及清洗数据生成标准化数据库，同时可以对同一靶点的大量分子进行快速的SAR分子总结加速了整个药物发现的进程。具有以下的技术优势：

(1)实现了主动与自动结合的数据收集方式，相对于现有的数据库，所覆盖的文献以及数据量更广，能够提供更多的数据资源。

(2)实现了对多个数据库信息的自动整合相互验证，加入了进一步人工校对，因此相对于现有的数据库，数据的准确性更高。

(3)第一次提出了对数据库加入了化合物的构效关系分析模块，能够减轻用户对大量数据的分析时间。

附图说明

图1是本发明的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

实施例1

本实施例以异柠檬酸脱氢酶1(Isocitrate dehydrogenase 1,IDH1)的小分子抑制剂的活性数据库的建立为例。IDH1可以将异柠檬酸氧化成为草酰琥珀酸，然后再转化成为α-酮戊二酸，从而参与三羧酸循环，调节体内的能量代谢。研究表明IDH1的突变与脑胶质瘤、副神经节流以及急性髓细胞白血病密切相关。因此开发出针对IDH1的小分子抑制剂对治疗这类癌症至关重要。我们按照如图1所示的流程，建立方法改数据库主要包括以下步骤：

步骤S01，确定IDH1的Uniprot ID为O75874，通过开源数据库Chembl，利用python网络爬虫技术，收集现有的分子结构以及活性的原始数据。一共有35948个分子，37932条活性数据。

步骤S02，调用数据清洗模块，对原始数据进行清洗分类，最终得到31267个分子，清洗的过程包括：

(2.1)通过分子结构解释器，得到分子指纹字符串。主要步骤为：

a.读取分子结构M(通常为smiles表示形式)，将其转化成为mol的3D结构,通过Rdkit中的Chem.MolFromSmiles()模块

b.再计算mol结构的Morgan型分子指纹，通过Rdkit中的GetMorganFingerprint()。最终得到分子指纹字符串，以及对应的分子ID。

(2.2)通过分子活性数据解释器，将不同测试方法的数据进行分类(在此例中，主要包括分子对IDH1体外酶活抑制的IC₅₀以及对IDH1突变型的细胞系生长抑制的IC₅₀)。

(2.3)调用清洗模块，分类存储后的数据进行清洗。主要包括去除不符合标准的数据，以及重复的数据等。

步骤S03，调用数据校验模块对数据进行进一步的校验。提取分子ID以及对应的分子指纹字符串，进行不同数据库之间的相互校验，规定数据误差阈值，对超过阈值的数据进行报告后，通过人工进行原文校验后得到确定数据，对阈值内的数据通过采取平均值的方式获得最终的数据。

步骤S04，通过数据清洗以及校验后的数据，由临时文件存储至数据库。存储方式为：

通过对分子结构的指纹字符串进行对比，得到分子指纹的相似度。将相似度较高的分子放在同一结果集，同时将其所对应的活性数据存储在其子集内，以此类推，上传至MongoDB数据库中。

步骤S05，数据搜索，将用户通过SDK上传的检索请求转化成可识别语言。后通过对数据库检索得到所需结果，后返还给用户。

其中，对于分子结构的识别，通过分子结构解释器将该分子结构转化为分子指纹字符串，后依此对比原子类型以及键的连接方式，最终得到该分子结构所在的结果集以及唯一的分子ID，再根据用户的需求选择，检索该ID所对应的酶活性、细胞活性等性质，进而输出不同的结果。

步骤S06，对化合物进行构效分析。根据用户的需求选择性的进行构效分析。通过调用Jupyter中所编写的构效分析模块，对化合物进行批量的构效分析。

(6.1)用户输入其所感兴趣的结构，例如Smiles表达的O＝C1CCCN1(1)，通过亚结构匹配选取所有包含该结构的化合物,发现一共有398个分子含有这个亚结构；Smiles表达为C1＝CC＝NN1(2),通过亚结构匹配选取所有包含该结构的化合物,发现一共有2323个分子含有这个亚结构。

(6.2)对含有这一亚结构的化合物通过rdkit工具包中的Chem.ReplaceCore()、Chem.GetMolFrags()等命令进行取代基的切除、转换、以及取代位点的分类。

(6.3)将每个化合物标记出其取代位点取代类型、结构、活性等数据最后生成SAR分析列表。

(6.4)当我们再对初步形成的列表有了解后，可以进一步的细化母核结构，即重复以上过程，等到进一步细化的SAR分析列表。

实施例2

本实施例以聚腺苷二磷酸核糖聚合酶(poly(ADP-ribose)polymerase 1，PARP1的小分子抑制剂的活性数据库的建立为例。PARP1是一类存在于真核细胞中的催化聚ADP核糖基化的细胞核酶，聚ADP核糖化是蛋白质翻译后的重要修饰方式之一。PARP1占细胞内PARP活性的80％以上，广泛的存在于生物体内，对DNA的损伤修复、基因转录和表达以及细胞凋亡等生理过程起着重要作用。PARP抑制剂主要通过合成致死的作用机制来阻止DNA的复制，目前主要应用与BRCA1/2突变的肿瘤、铂敏感的复发性肿瘤当中。我们按照如图1所示的流程，建立数据库的方法主要包括以下步骤：

步骤S01，确定PARP1的Uniprot ID为P09874，通过开源数据库Chembl，利用python网络爬虫技术，收集现有的分子结构以及活性的原始数据。一共有3331个分子，4439条活性数据。通过付费数据库得到6784个分子，一共10283条活性数据

步骤S02，调用数据清洗模块，对原始数据进行清洗分类，最终得到4324个分子。

清洗的过程包括：

(2.2)通过分子活性数据解释器，将不同测试方法的数据进行分类(在此例中，主要包括分子对PARP1体外酶活抑制的IC₅₀以及对BRCA1/2突变的肿瘤细胞系生长抑制的IC₅₀)。

步骤S03，调用数据校验模块对数据进行进一步的校验。提取分子ID以及对应的分子指纹字符串，进行不同数据库来源的数据之间的相互校验，规定数据误差阈值，对超过阈值的数据进行报告后，通过人工进行原文校验后得到确定数据，对阈值内的数据通过采取平均值的方式获得最终的数据。

(6.1)用户输入其所感兴趣的结构，例如Smiles表达的O＝C1NN＝CC2＝C1CCCC2(1)，通过亚结构匹配选取所有包含该结构的化合物,发现一共623个分子含有这个亚结构；Smiles表达为C12＝C[N]N＝C1C＝CC＝C2(2),通过亚结构匹配选取所有包含该结构的化合物,发现一共有482个分子含有这个亚结构。

Claims

1.建立分子结构与活性数据库的方法，其特征在于，包括以下步骤：

（1）数据的采集

从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息，收集后的数据上传至临时文件中；

（2）数据清洗

数据清洗模块按照需求将外部数据转换成为标准化格式；

（3）数据校验

通过对不同数据库的数据进行校验核对确保数据的准确性；

（4）数据检索

将校验通过存储的临时文件，上传至MongoDB数据库中，供后续使用；

用户通过SDK向数据检索模块发送检索请求，其中包括了要查询的数据表、分子结构、字段和查询条件；

数据检索模块将请求转化成可识别语句，访问数据库得到结果；

结果将返回数据检索模块后传给用户SDK，最终完成检索；

（5）构效分析

根据用户的需求通过上述的数据检索方式，选取某一特定的靶点，提取包含该靶点的全部数据；后调用Jupyter中的构效分析模块，根据用户所输入的母核结构以及相似度的要求，对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。

2.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（1）中，收集数据方法主要是通过自动收集以及主动上传两种方式进行数据收集：

（1.1）自动收集主要是从开源的数据库Chembl，首先确定所选择靶点的Uniprot ID，根据ID可以锁定准确且唯一的靶点，后利用python网络爬虫技术进行自动收集生成原始数据；

（1.2）主动上传主要是针对付费数据库，这类数据库无法使用python网络爬虫技术，通过手动下载后，再将数据由本地进行上传。

3.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（2）主要的清洗标准：

A、根据不同数据库所获得的原数据，调用不同的数据清洗模块；数据清洗模块根据不用的数据内容以及标记类型，调用相对应的解释器；

B、包括分子结构数据解释器、分子实验活性数据解释器；

C、用过Jupyter调用筛选模块，过滤掉一些不符合标准的分子；筛选标准主要包括分子的活性测试方法、分子的活性表示方法以及数据的来源标准；

4.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（3）数据校验，主要包括以下步骤：

（3.1）数据清洗后，调用数据校验模块，将需要校验的数据由清洗模块系统传入数据校验模块；

（3.2）在校验模块中，逐条对数据进行校验；首先数据类型，根据数据类型读取不同的校验规则；对于同一个分子，如果活性测试类型一样，但是存在多条数据的情况；若数据之间差值不超过规定范围则取平均值，若相差超过规定范围，则输出提示后，并将数据来源的文献下载输出供人工查验；

（3.3）按照校验规则逐一匹配需要校验的数据，校验完成后通过校验的数据会被模块持久化到临时文件系统当中。

5.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（5）主要包括以下步骤：

（5.1）对数据库中的分子进行亚结构匹配，调用rdkit中的亚结构匹配模块，匹配所有包含该结构的亚结构；

（5.2）将匹配到的分子结构转化成为分子指纹，后计算其Tanimoto相似度与用户需求进行匹配；

（5.3）在满足匹配要求的化合物当中，利用rdkit化学工具包取代侧链模块以及取代基转换模块，对取代基团以及取代位点进行切割、转换、分类；最后列出SAR列表便于用户对结构以及活性进行比较分析。