CN110851617A

CN110851617A - 一种基于知识图谱的多源信息药物筛选方法

Info

Publication number: CN110851617A
Application number: CN201910959494.9A
Authority: CN
Inventors: 刘昊; 高春晓; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-02-28
Anticipated expiration: 2039-10-10
Also published as: CN110851617B

Abstract

本发明属于药物筛选技术领域，公开了一种基于知识图谱的多源信息药物筛选方法，包括以下步骤：多源异构数据源融合；优化分子结构；优化打分流程架构；分子对接和打分；知识图谱实体的构建；知识图谱实体关联关系的构建；筛选检索。本发明将优化的三维分子结构、打分筛选的分子信息等信息组织到知识图谱中，在知识图谱中进行环路检索，使得药物筛选更高效、准确度更高。

Description

一种基于知识图谱的多源信息药物筛选方法

技术领域

本发明属于药物筛选技术领域，特别涉及一种基于知识图谱的多源信息药物筛选方法。

背景技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱的应用领域正在不断地得到扩展且取得的效果也是惊人的。

多源异构数据是指描述同一主题的数据由不同的用户、不同的网站产生。不同数据源种的数据有多种不同的呈现形式和存储形式，如sdf、txt、json格式等或音视频、图片、文本等，导致数据格式上的异构性。

药物筛选的概念是指从天然或者合成的化合物中筛选出具有药理活性的物质，然后对其进行结构改造或修饰，成为候选新药。它具有随机筛选、特定样品的筛选、比较筛选、定向合成筛选等多种基本形式。目前药物筛选模型有整体动物模型与传统方法、组织器官水平和体外药物筛选方法以及细胞水平、分子水平筛选方法等。值得注意的是，在进行生物活性筛选之前有时需要首先进行虚拟筛选(virtual screening,VS)，也称计算机筛选，即在计算机上对化合物分子进行预筛选，以降低实际筛选化合物数目，同时提高先导化合物发现效率。虚拟筛选可以分为基于靶点结构的虚拟筛选，即分子对接以及基于配体相似性的虚拟筛选，即药效基团搜寻等类型。

尽管目前的虚拟筛选，尤其是高通量的虚拟筛选，已经显著提高先导化合物的发现效率，但仍然存在较多不足。

1.传统的基于受体或者配体的对接方法仅仅考虑了靶点和化合物的结构信息，忽视了除此之外的非结构信息及受配体之间的拓展信息，导致对接结果的准确性和可靠性大大降低。

2.分子较多时根据对接分数较难选择分子。对于高通量虚拟筛选，往往有可能产生大量的筛选结果，使用单一的特征进行筛选，相应的时间成本太高，准确性不高，因此针对获得的大量的筛选结果，如何高效的进一步筛选成为问题。

3.现有的虚拟筛选的方法仅仅生成了一个打分结果，该结果仅作用于此筛选阶段，与药物研发的后续步骤的关联性不强。

发明内容

针对现有技术存在的不足，本发明提供一种基于知识图谱的多源信息药物筛选方法，将优化的三维分子结构、打分筛选的分子信息等信息组织到知识图谱中，在知识图谱中进行环路检索，使得药物筛选更高效、成本较低，且结果的准确度和可靠性提高。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于知识图谱的多源信息药物筛选方法，包括以下步骤：

1)多源异构数据源融合；

2)优化分子结构；

3)优化打分流程架构；

4)分子对接和打分；

5)知识图谱实体的构建；

6)知识图谱实体关联关系的构建；

7)筛选检索。

进一步的，步骤1)的具体操作是：根据不同数据的特性，使用人工筛选及半监督的机器学习方法将从药学相关网站中下载得到的结构化、半结构化的数据，从药学相关文献中通过知识抽取技术提取出来的多种类型的实体信息及实体之间的多种类型的关系的信息建立联系相互融合。

进一步的，步骤2)的具体操作是：对知识图谱系统中的化合物分子进行从二维结构向三维结构的转化，并通过查询分子的源文献，调整转换结果，修正分子结构，完成用于对接的三维小分子；然后结合靶点结合位点的情况，优化分子结构，使优化后的分子结构更符合分子的实际情况，为计算筛选做准备。

进一步的，步骤3)的具体操作是：

首先，优化了数据的输入和输出模式：批量化地一次输入一组对接分子的数据，根据实际的打分任务，将数据根据分子计算量大小和计算节点性能，进行数据的分片，每一个数据分片包含一组对接分子的数据，输出也包含一组分子的打分结果；

其次，在利用打分函数打分时，采用主核-从核打分架构，把主核的运算数据分享到从核上，让从核进行更多的计算，再把计算结果返回主核。

进一步的，首先，根据写有配体和受体的官能团受力局部区域的格点文件，选择合适的结合位点；然后，在主核上读取这个格点文件，将配体的迭代过程分布到从核上面，并在从核间共享格点数据。

进一步的，步骤4)的具体操作是：在靶标分子的活性位点上依次连接分子，这些分子来自于步骤2)中优化的三维结构，然后连续进行受体分子的对接，直到找到小分子配体与靶标大分子结合的最优构象，计算出小分子配体与生物大分子受体相连接的方式与亲和力，并且对结果进行打分，根据打分结果挑选出最佳配体，然后将最佳配体进行实体药物筛选，将筛选出的化合物加入知识图谱。

进一步的，步骤5)的具体操作是：从步骤1)中的数据提取实体信息，并将这些数据的实体信息作为属性加入知识图谱中。

进一步的，步骤6)的具体操作是：对步骤5)中的实体，进行数据分析，并互相建立实体间的关联关系：

首先，将待筛选的化合物与所有靶点建立以打分函数的计算结果为属性的联系；

其次，将待筛选的化合物与已经成药的化合物建立以结构相似性的计算结果为属性的联系；

最后，将剩下的实体互相建立以公共字段为属性的联系。

进一步的，建立知识图谱的实体关联关系时，将oriscore、numatom、lescore的结合打分值高于均值的待成药化合物与对应靶点建立实体关联；将小分子与已经成药的化合物相似度打分高于“-8”的筛选出来加入实体关联。

进一步的，步骤7)的具体操作是：在知识图谱中，根据实体间的联系，将已经成药或者即将成药的化合物、靶点、蛋白质与被筛选的小分子构成环路，进行环路搜索；

在环路搜索时，设置筛选条件，首先筛选对接打分值超过设定阈值的标准的化合物和靶点，其次再筛选相似度高于设定阈值的待筛选化合物与已成药化合物的，能在筛选条件下构成环路的化合物。

与现有技术相比，本发明优点在于：

(1)本发明构建出一个数据来源广泛的药学领域的大规模知识图谱系统。

该知识图谱系统的数据来源包括主流权威药物数据集、受体文件对接计算结果集、相似性计算结果集、结构化和半结构化的分子数据及文本文献中提取得到的各类相关数据。并在以上丰富全面的数据的基础之上，建立出了实体的源信息，并在以上数据的支持下，提供了一部分实体之间的关联关系。

在上述此关系的基础上，又添加了多种关系来丰富完善知识图谱。首先，进一步融合了基于靶点和化合物结构的打分的数据，在这个打分的基础上进行筛选，构建了靶点和化合物的关系。其次，在知识图谱中还添加了分子和化合物的相似性的计算结果，使分子和化合物建立了新的关联关系。然后，我们把从相关文献中抽取的信息加入知识图谱，完善了各类实体之间的关系。

最终构建了一个包含了化合物、靶点、蛋白质、基因、现有药物和基因通路等实体类型的知识图谱，并在这些实体之间建立关联关系。通过实体的关联关系上进行检索可以更为高效准确地从数据库中筛选出所需的先导化合物。

(2)本发明对接计算时使用的分子结构是基于精细优化的、正确率高且适宜对接及相似性计算的三维分子结构。

(3)将优化的三维分子结构、打分筛选的分子信息等信息组织到知识图谱中，在知识图谱中进行环路检索，使得药物筛选更高效、成本较低，且结果的准确度和可靠性提高。

(4)本发明在原有打分计算的基础上使用了主核-从核(众核)架构优化了打分流程，大大加快了运算速度，提高了计算资源利用率。在相同的时间里，能进行更多次数的大规模打分计算，总体上更有利于筛选。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图；

图2为本发明的知识图谱基本框架图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

如图1所示，本实施例提供的基于知识图谱的多源信息药物筛选方法，包括以下步骤：

1)多源异构数据源融合

根据不同数据的特性，使用人工筛选及半监督的机器学习等方法将从各类药学相关网站中下载得到的结构化、半结构化的数据，从大量药学相关文献中通过知识抽取技术提取出来的多种类型的实体信息及实体之间的多种类型的关系的信息建立联系相互融合。

2)优化分子结构

对知识图谱系统中的化合物分子进行从二维结构向三维结构的转化，并通过查询分子的源文献，调整转换结果，修正分子结构上的错误，完成用于对接的三维小分子；然后结合靶点结合位点的情况，优化分子结构，使优化后的分子结构更符合分子的实际情况，为计算筛选做准备。

3)优化打分流程架构

根据之前积累的经验和计算结果，对现有的打分运算流程架构进行优化。

首先，优化了数据的输入和输出模式。传统打分函数一次输入一对对接分子数据，输出一个结果。本发明的优化在于，批量化地一次输入一组对接分子的数据，根据实际的打分任务，将数据根据分子计算量大小和计算节点性能，进行数据的分片。每一个数据分片包含一组对接分子的数据，输出也包含一组分子的打分结果。采用这种模式，大大降低了传统打分函数执行过程中产生的大量任务调度过程，同时降低了数据的I/O访问次数。

首先，根据写有配体和受体的官能团受力局部区域的格点文件，选择合适的结合位点；然后，在主核上读取这个格点文件，将配体的迭代过程分布到从核上面，并在从核间共享格点数据。

在实验中，利用从核计算速度快、资源利用率高的优势，把主核的运算数据分享到从核上，让从核进行更多的计算，再把计算结果返回主核，这样的从核-从核(众核)打分架构，从原来只能使用主核运算，到分布到从核运算，这样能使得受体的格点数据一次性计算完成，并利用改进的大容量高速数据缓存，在多个从核上共享该格点数据，大大降低了重复计算。大大加快了运算速度，提高了计算资源利用率，在相同的时间里，能进行更多次数的大规模打分计算，有利于大规模打分结果的筛选。

本实施例还在原有打分函数的基础上对打分函数进行优化，重点改进的项包括高斯空间吸引、二次空间排斥、伦纳德琼斯势、静电相互作用、疏水相互作用、非疏水相互作用和非定向氢键等。除了优化这些参数的构成，我们还调整了对接计算半径，改进了评分、排名在对接和虚拟筛选应用中两种评分功能的权重。在这一过程中，通过不断的优化预测其结合模式、亲和力，得到了更准确的结果，并降低了资源的消耗。

4)分子对接和打分

在靶标分子的活性位点上依次连接分子，这些分子来自于步骤2)中优化的三维结构，然后连续进行受体分子的构象、位置等方面的对接，直到找到小分子配体与靶标大分子结合的最优构象，计算出小分子配体与生物大分子受体相连接的方式与亲和力，并且对结果进行打分，根据打分结果挑选出最佳配体(打分结果最高的为最佳配体，在实际操作时，设定一个打分标准值，高于标准值的认为具有成药可能，可进行下一步的药物筛选)，然后将最佳配体进行实体药物筛选，将筛选出的化合物加入知识图谱。

实际操作时，筛选出对接计算打分符合吉布斯自由能分数小于-8且吉布斯自由能与重原子个数的比值小于-0.3的结果，得到对于某一特定受体活性最高、最易成药的小分子。

5)知识图谱实体的构建

从步骤1)中的数据提取实体信息，并将这些数据的实体信息作为属性加入知识图谱中。

具体是；将步骤1)中的数据，进行针对性的格式转换、实体对齐等技术处理，从各类数据源中提取化合物、靶点、蛋白质、基因、现有药物和基因通路等类型的数据构成实体，并把这些数据的相关信息当作其属性存入知识图谱，建立简单的关系。

6)知识图谱实体关联关系的构建

对步骤5)中的实体，进行数据分析，并互相建立实体间的关联关系：

首先，将待筛选的化合物与所有靶点建立以打分函数的计算结果为属性的联系。

其次，将待筛选的化合物与已经成药的化合物建立以结构相似性的计算结果为属性的联系。

最后，将剩下的实体互相建立以id号或者其他公共字段为属性的联系。

建立知识图谱的实体关联关系时，将oriscore、numatom、lescore(即打分结果的三个参数)的结合打分值高于均值的待成药化合物与对应靶点建立实体关联；将小分子与已经成药的化合物相似度打分高于“-8”的筛选出来加入实体关联。

7)筛选检索

完成如图2所示的知识图谱的架构后，在知识图谱中，根据实体间的联系，将已经成药或者即将成药的化合物、靶点、蛋白质等实体与被筛选的小分子构成环路，进行环路搜索。

对于每一个待筛选的海洋天然产物，都在知识图谱里面进行一次这样的环路搜索。在环路搜索时，设置一定筛选条件，首先筛选对接打分值超过设定阈值的标准的化合物和靶点，其次再筛选相似度高于设定阈值的待筛选化合物与已成药化合物的，能在筛选条件下构成环路的化合物，对环路中的靶点有较高成药可能。

本实施例以C20H9ClO8为例说明药物筛选的全过程。

1)多源异构数据源融合：

从DrugBank、PubChem、ChemSpider、Uniprot、RCSB Protein Data Bank、MarinChem3D、KEGG DRUG Database以及KEGG PATHWAY Database等网站上以及从大量药学相关文献中通过知识抽取技术提取出来的多种类型的实体信息及实体之间的多种类型的关系的信息建立联系相互融合。

2)优化分子结构：

对接计算时，通过分子C20H9ClO8的Similes([C@H]12[C@H]([C@@]34c5c(C1＝O)c(c(cc5[C@@]1(c5c(O3)ccc(c5C(＝O)[C@@H]3[C@H]1O3)O)O4)Cl)O)O2)，导出该分子的二维结构，再根据其对应的Target进行优化，生成三维结构，然后对生成的三维结构再加入氢原子和电荷，完成一个用于对接的三维小分子。然后通过参考相关论文及靶点结合位点的情况，进行修正分子结构、调整化学键位置、优化正反顺式结构等人工操作，得到正确率高且适宜对接及相似性计算的三维分子结构。经比对优化过的三维分子结构更符合分子的实际情况。

3)优化打分函数：

根据之前积累的经验和计算结果，对现有软件上的现有的打分函数进行优化。根据结合位点，修改分子C20H9ClO8的结合打分函数，添加高斯空间吸引和静电相互作用和非定向氢键提高了分子结合的准确程度，降低了分子结合时的距离。

4)优化打分流程架构：

在主核上读取把分子C20H9ClO8的格点文件，根据结合位点，把格点数据与多个从核共享，为下一步分子对接和打分做好准备。

5)分子对接和打分：

将步骤2)得到的三维结构的小分子与数据集中的靶点在计算软件上，使用步骤3)得到的特定的打分函数进行计算，得到打分结果，并将打分结果存入知识图谱中。对接计算采用步骤4)的流程架构，提高计算效率。

6)知识图谱实体的构建；

从步骤1)中的数据提取实体信息，在知识图谱中加入这些实体，具体架构如图2。

7)知识图谱实体关联关系的构建

分析知识图谱的实体信息，通过相应的公共字段建立属性上的联系；把小分子与已经成药的化合物相似度打分高于“-8”的筛选出来加入实体关联；将oriscore、numatom、lescore的结合打分值高于均值的待成药化合物与对应靶点建立实体关联。

8)小分子筛选(筛选检索)：

根据步骤5)的结果，进行分析，发现该分子与药物Technetium Tc-99mciprofloxacin相似度较高，与靶点3qx3的打分结果较为理想，且Technetium Tc-99mciprofloxacin在知识图谱中与靶点3qx3的有结合位点，因此我们筛选出该分子，推测该分子有较高成药可能性。

再根据该分子的信息Molecular Formula C20H9ClO8；Average mass412.734Da；#H bond acceptors:8；#H bond donors:2；#Freely Rotating Bonds:0；#Ruleof 5Violations:0；Water Solubility at 25deg C(mg/L):66.43；ACD/LogP:4.21；ACD/LogD(pH 5.5):3.34，对分子按照辉瑞公司资深药物化学家Christopher A.Lipinski曾提出筛选类药分子的五条基本法则(即“类药五原则”)：1.分子量小于500；2.氢键给体数目小于5；3.氢键受体数目小于10；4.脂水分配系数小于5；5.可旋转键的数量不超过10个进行推测。分子C20H9ClO8基本符合“类药五原则”要求，具有成药潜力。

综上所述，本发明首先构建出一个数据来源广泛的药学领域的大规模知识图谱系统。该知识图谱系统的数据来源包括主流权威药物数据集、受体文件对接计算结果集、相似性计算结果集、结构化和半结构化的分子数据及文本文献中提取得到的各类相关数据。

在该知识图谱系统的基础上，建立出了实体的源信息、实体之间的关联关系；结合环路检索机制，筛选出具有较高成药可能性的分子，准确性高。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于知识图谱的多源信息药物筛选方法，其特征在于，包括以下步骤：

1)多源异构数据源融合；

2)优化分子结构；

3)优化打分流程架构；

4)分子对接和打分；

5)知识图谱实体的构建；

6)知识图谱实体关联关系的构建；

7)筛选检索。

2.根据权利要求1所述的基于知识图谱的多源信息药物筛选方法，其特征在于，步骤1)的具体操作是：根据不同数据的特性，使用人工筛选及半监督的机器学习方法将从药学相关网站中下载得到的结构化、半结构化的数据，从药学相关文献中通过知识抽取技术提取出来的多种类型的实体信息及实体之间的多种类型的关系的信息建立联系相互融合。

3.根据权利要求2所述的基于知识图谱的多源信息药物筛选方法，其特征在于：步骤2)的具体操作是：对知识图谱系统中的化合物分子进行从二维结构向三维结构的转化，并通过查询分子的源文献，调整转换结果，修正分子结构，完成用于对接的三维小分子；然后结合靶点结合位点的情况，优化分子结构，使优化后的分子结构更符合分子的实际情况，为计算筛选做准备。

4.根据权利要求3所述的基于知识图谱的多源信息药物筛选方法，其特征在于：步骤3)的具体操作是：

5.根据权利要求4所述的基于知识图谱的多源信息药物筛选方法，其特征在于：首先，根据写有配体和受体的官能团受力局部区域的格点文件，选择合适的结合位点；然后，在主核上读取这个格点文件，将配体的迭代过程分布到从核上面，并在从核间共享格点数据。

6.根据权利要求4所述的基于知识图谱的多源信息药物筛选方法，其特征在于：步骤4)的具体操作是：在靶标分子的活性位点上依次连接分子，这些分子来自于步骤2)中优化的三维结构，然后连续进行受体分子的对接，直到找到小分子配体与靶标大分子结合的最优构象，计算出小分子配体与生物大分子受体相连接的方式与亲和力，并且对结果进行打分，根据打分结果挑选出最佳配体，然后将最佳配体进行实体药物筛选，将筛选出的化合物加入知识图谱。

7.根据权利要求6所述的基于知识图谱的多源信息药物筛选方法，其特征在于：步骤5)的具体操作是：从步骤1)中的数据提取实体信息，并将这些数据的实体信息作为属性加入知识图谱中。

8.根据权利要求7所述的基于知识图谱的多源信息药物筛选方法，其特征在于，步骤6)的具体操作是：对步骤5)中的实体，进行数据分析，并互相建立实体间的关联关系：

最后，将剩下的实体互相建立以公共字段为属性的联系。

9.根据权利要求8所述的基于知识图谱的多源信息药物筛选方法，其特征在于，建立知识图谱的实体关联关系时，将oriscore、numatom、lescore的结合打分值高于均值的待成药化合物与对应靶点建立实体关联；将小分子与已经成药的化合物相似度打分高于“-8”的筛选出来加入实体关联。

10.根据权利要求9所述的基于知识图谱的多源信息药物筛选方法，其特征在于：步骤7)的具体操作是：在知识图谱中，根据实体间的联系，将已经成药或者即将成药的化合物、靶点、蛋白质与被筛选的小分子构成环路，进行环路搜索；