CN104750761A

CN104750761A - 分子结构数据库的建立方法及搜索方法

Info

Publication number: CN104750761A
Application number: CN201310754439.9A
Authority: CN
Inventors: 季晓峻; 宋国梁
Original assignee: Chemical Science And Technology Ltd Of Causing Of Shanghai
Current assignee: Chemical Science And Technology Ltd Of Causing Of Shanghai
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2015-07-01
Anticipated expiration: 2033-12-31
Also published as: CN104750761B

Abstract

本发明公开了一种分子结构数据库的建立方法及搜索方法，该方法预先将大规模分子库划分为多个有内部树形关系的群组，在搜索时，首先将分子结构A与数据库中所有分子结构进行分子指纹计算，获得初步匹配结果；然后将分子结构A与该结果集中分子结构逐一进行严格的子结构匹配计算；若完成匹配，则将该匹配上的分子及其子树所有分子结构一并加入到返回列表中。本发明通过对大规模分子数据库的特殊的预处理，使搜索中的严格子结构匹配次数大大降低从而大大提高分子结构搜索的效率，对于提高网站的并发访问数量有巨大的意义。

Description

分子结构数据库的建立方法及搜索方法

技术领域

本发明涉及数据库搜索引擎技术领域，特别涉及一种分子结构数据库的建立方法及搜索方法。

背景技术

目前，现有常用已知的分子结构数量已经超过1000万个，如何从这常用的1000多万个已知结构中精确查找到用户所需要的那一种分子结构，如何从这1000多万个已知结构中快速查询与某个结构相同或相似的所有分子结构，都对搜索效率有着重大的影响。

具有超大规模分子结构数量的数据库（超过1000万）的分子结构如果使用传统算法会遭遇巨大的计算效能瓶颈。原因在于，传统算法通常是先针对待搜索化合物进行分子指纹筛选，而在具有1000万化合物的数据库中筛选结果集通常难以低于1万个，然后再针对这个结果集进行严格的结构匹配计算。而严格的结构匹配计算非常耗时，其算法是图论中的NP难题。

通常的一个CPU内核每秒钟仅能处理不超过100次这样的比较。这样用户一次查询通常要等待接近100秒，在一些科研计算中，这尚可接受。但是在互联网服务中，这样的效率就完全无法忍受了。再考虑到巨大的网站并发量，使得超大规模分子结构数据库的结构搜索难以应用于互联网服务。

中国专利申请CN102929907A公开了一种手绘式化学分子结构式搜索方法，其包括：用户将需要搜索的化学品的分子结构式用手绘的方式绘制在指定的网页编辑区域内；将所述的已经绘制的分子结构式，通话浏览器提交至化学品数据库信息服务器，由搜索系统进行解析；所述的搜索系统将搜索结果反馈给用户。

该专利申请仅提供了一种通过手绘来搜索分子结构的方式，但仍然没有解决如何在超大规模分子结构的数据库中快速、精确查找到所需要的分子结构的技术问题。

发明内容

本发明针对以上现有技术存在的问题，提供一种可以在具有超大规模分子结构的数据库快速、准确搜索分子结构的搜索方法。

本发明提供一种分子结构数据库的建立方法，其包括以下步骤：

步骤S011，读取一个分子结构A，计算其分子指纹并与数据库中所有分子结构的分子指纹进行比较；

其中，分子结构A与其他分子结构分子指纹的比较包括：将两个分子结构分子指纹字符串的每个对应字符位置进行比较，将相同字符位置相同字符的数量除以总字符数量，得到分子指纹的相似度；

步骤S012，分子结构A与数据库中所有分子结构的分子指纹进行比较并筛选后，将分子指纹相似度大于或等于预设值的分子结构放入第一结果集；

步骤S013，将分子结构A与第一结果集中所有分子结构逐一进行子结构匹配计算，其中，分子结构的子结构匹配计算包括：将分子结构和另一对比的分子结构进行严格的基于原子类型和键连类型的化学结构图匹配；

步骤S0141，若分子结构A的化学结构图包含第一结果集中至少一个分子结构的化学结构图，即完成包含匹配，则将分子结构A分别存储于这些分子结构所在的群组中，并存储分子结构A与群组内其他分子结构的相互连接关系和树形关系；

步骤S0142，若分子结构A的化学结构图被包含于第一结果集中至少一个群组的根节点分子结构的化学结构图，即完成隶属匹配，则将分子结构A作为这些群组的新根节点存储，并存储分子结构A与群组内其他分子结构的相互连接关系和树形关系；

步骤S0143，若分子结构A与第一结果集中任一分子结构均不包含或被包含，则新建一个群组，并将该分子结构A存储于该新群组中。

进一步地，所述分子结构分子指纹的计算包括：a.对一个分子结构的所有键和原子进行分解；b.与一预设分子结构的所有键和原子对比，若同一个位置存在相同结构的，记为1；否，则记为0；c.得到该分子结构的由0和1组成的分子指纹字符串。

进一步地，所述分子指纹计算中该分子结构与预设分子结构的所有键和原子是以同样的线性路径排列。

进一步地，该预设分子结构是数据库中任一分子结构或预定义的含有所有种类键和原子的分子结构。

进一步地，步骤S013还包括预先将数个基础分子结构分别存储入数个独立的群组中。

进一步地，步骤S013包括根据第一结果集在该数据库中的群组，将分子结构A和对应的群组成员分子结构传入GPU内的计算网格中进行子结构匹配计算。

进一步地，步骤S0141中存储分子结构A与群组内其他分子结构的相互树形关系包括，将分子结构A与群组内其他分子结构进行子结构匹配计算，若与至少一个分子结构完成包含匹配，则将分子结构A分别存储于这些分子结构的子节点中，同时，若这些分子结构具有子树关系，则将分子结构A存储于这些子树关系最末端的子节点。

其中，上述“子树关系”是指两个分子结构在树形关系中属于上下直接的包含或隶属关系。

本发明还提供一种基于上述方法建立的数据库的分子结构搜索方法，其包括以下步骤：

步骤S021，对待搜索分子B进行分子指纹计算；

步骤S022，将待搜索分子B的分子指纹与该数据库中每一个分子结构的分子指纹进行相似度计算并筛选，得到第二结果集；

步骤S023，根据第二结果集在该数据库中的群组，将待搜索分子B和对应的群组成员分子结构传入GPU内的计算网格中进行子结构匹配计算；

步骤S024，每个GPU计算网格按群组内树形关系自上而下的顺序匹配计算；

步骤S025，若子结构匹配计算中发现某个分子结构C与待搜索分子B完成包含匹配，即分子结构C的化学结构图包含待搜索分子B的化学结构图，则该计算网格中该分子结构C向下的所有子树分子结构都不再进行子结构匹配计算，并将这些子树分子结构直接加入到返回列表中；

步骤S026，对所有计算网格完成计算后统一返回所有得到的分子结构。

进一步地，步骤S023是将第二结果集中隶属于该数据库中同一个群组的分子结构放入同一个计算网格，同时传入存储于数据库中的快速剪枝信息，以加快子结构匹配计算的剪枝速度。

进一步地，步骤S026中返回的是按照与待搜索分子B相似度由高到低排序的分子结构。

本发明适用于所有分子结构的数据库，尤其适用于具有超大规模数量分子结构的数据库，可以极大加快超大规模数据库的搜索效率。其中，“超大规模”是指分子结构数量超过1000万的数据库，且一般单服务器小于1亿个分子结构。

本发明提供的超大规模数据库的建立方法及分子结构搜索方法具有以下有益效果：

1.采用数据库相似数据分群的方式，将超大规模数量的分子结构进行预处理，分为数个独立群组。以1000万个分子结构的数据库为例，分为20万个独立群组，每个独立群组平均包含50个分子结构(30～200)。将大量的重复匹配工作在预先的数据库建立过程中一次性完成，大大提高结构匹配（分子指纹相似度比较）的速度，对最耗时的子结构匹配计算的次数从现有技术的平均上万次降低到平均100-200次左右，从而大大提高分子结构搜索的效率，对于提高网站的并发访问数量也有巨大的意义。

2.本发明将最耗时的子结构匹配计算移植于GPU中运行，每比较50000次耗时低于0.01秒，即每秒5M次的比较速度，并利用预存的剪枝数据来提高剪枝速度，使得计算效率进一步提高。

3.子结构匹配计算后，本发明直接调用预先存储的精确的每个计算网格内分子结构间的相似度及计算网格相关信息，几乎不耗费计算时间，就能给出所有分子结构的严格、精确结果。

附图说明

为能更清楚理解本发明的目的、特点和优点，以下将结合附图对本发明的较佳实施例进行详细描述，其中：

图1是本发明分子结构搜索方法的第一实施例流程图；

图2是本发明第一实施例中某个群组中的树形关系示意图；

图3是本发明分子指纹计算的一个实施例；

图4是本发明第一实施例中步骤S01的计算机编程流程示意图；

图5是本发明第一实施例中步骤S02的计算机编程流程示意图。

具体实施方式

请参阅图1，本第一实施例分子结构数据库的建立方法和搜索方法包括以下步骤：

步骤S01，提供一存储分子结构的数据库，并对该数据库中的所有分子结构进行预处理，该预处理过程包括：

步骤S011，读取一个分子结构A，计算其分子指纹并与数据库中所有分子结构的分子指纹进行比较，其中，分子结构A分子指纹的计算包括：

a.对分子结构A的所有键和原子进行分解并以线性路径排列；

b.与一预设分子结构按相同线性路径排列的键和原子对比，若同一个位置存在相同结构的，记为1；否，则记为0；该预设分子结构是预定义的含有所有种类键和原子的分子结构，数据库中所有分子结构也基于该预设分子结构计算其各自分子指纹；

c.得到分子结构A的由0和1组成的分子指纹字符串；

步骤S012，将分子结构A的分子指纹与数据库中所有分子结构的分子指纹进行比较和筛选后，将分子指纹匹配的分子结构放入第一结果集；

步骤S013，将分子结构A与第一结果集中所有分子结构逐一进行子结构匹配计算，其中，该子结构匹配计算包括：将分子结构和另一对比的分子结构进行严格的基于原子类型和键连类型的化学结构图匹配；

步骤S0143，若分子结构A与第一结果集中任一分子结构均不包含或被包含，则新建一个群组，并将该分子结构A存储于该新群组中；

为了更清楚理解本步骤，请同时参阅图4，示出了本实施例步骤S01的计算机编程流程示意图。

步骤S02，在该预处理后的数据库中，搜索与待搜索分子B结构相似的分子结构，该搜索过程包括：

步骤S021，对待搜索分子B进行分子指纹计算；

步骤S022，将待搜索分子B的分子指纹与该数据库中每一个分子结构的分子指纹进行计算并筛选，得到第二结果集；

为了更清楚理解本步骤，请同时参阅图5，示出了本实施例步骤S02的计算机编程流程示意图。

其中，本实施例所述“分子指纹计算”是按照ChemAxon公司的Chemical Hashed Fingerprints Version6.1.2计算方法（https://www.chemaxon.com/jchem/doc/user/fingerprint.html）。“分子指纹”是将化学分子的结构信息以“0”和“1”组成比特串来表示（可以是512位或1024位的二进制数）。一个分子结构的指纹算法具体包括：

a.根据一个给定的键数，检测该分子结构所有线性路径（线状图案）包含的键、原子结构；

b.检测每个线性图案末端的分支点；

c.检测所有循环（循环模式）；

d.使用专有的哈希算法，设定每个图案中给定比特串的比特数。

例如，将式（I）分子结构通过对其键和原子的分解，以线性路径对其所有结构信息以一串比特串来表示，如图3所示。

在其他实施例中，该预设分子结构可以是数据库中的任一分子结构，也就是说，分子结构A与数据库中任一分子结构进行分子指纹计算和比较，即将分子结构A和数据库中任一分子结构的所有键和原子按照同一线性路径分解排列，得到同位置且同结构的数量X和不同位置相同结构或相同位置不同结构的数量Y，再以X/（X+Y）得到分子结构A和该分子结构的分子指纹相似度。

其中，本实施例所述“子结构匹配计算”（substructure matching）是一种严格的子结构匹配计算方法，其结果为完成包含匹配、完成隶属匹配和未完成匹配（Willet,P.;Barnard,J.M.;Downs,G.M.J.Chem.Inf.Comput.Sci.1998,38,983-996.），具体包括：

a.将所有分子结构的所有原子类型和键连类型对应到其化学结构图中；

b.对两个分子结构的化学结构图进行严格匹配；

c.若分子结构A的化学结构图包含分子结构B的化学结构图，则完成包含匹配，也就是说，分子结构A具有分子结构B的所有原子类型和键连类型；

d.若分子结构A的化学结构图被包含于分子结构B的化学结构图，则完成隶属匹配，也就是说，分子结构B具有分子结构A的所有原子类型和键连类型；

e.若分子结构A的化学结构图既不包含也不被包含于分子结构B，则未完成匹配。

以式（II）与式（III）和式（IV）化合物进行子结构匹配计算为例：

a.首先，将三者的所有原子类型和键连类型对应到其化学结构图中：

b.对式（II）与式（III）以及式（II）与式（IV）的化学结构图进行严格匹配；

c.与式（II）具有式（III）的所有原子类型（均具有苯环，且苯环上1和4号位置均具有氧原子）和键连类型（苯环上1和4号位置的氧原子均通过双键相连，即形成羰基），而式（II）比式（III）多了一个甲基（苯环上2号位置），则式（II）分子结构包含式（III）分子结构，即完成包含匹配；反之，式（III）分子结构被包含于式（II）分子结构，即完成隶属匹配；

d.式（II）与式（IV）具有相同的部分（均具有苯环，1号位置均以双键连接氧原子），也具有不相同的部分（苯环上4号位置分别以双键连接氧原子和氮原子，式（IV）的2号位置没有甲基），则式（II）分子结构既不包含也不被包含于式（IV）分子结构，即未完成匹配。

其中，在其他实施例中，步骤S011还可包括预先将数个基础分子结构分别存储入数个独立的群组中。

其中，步骤S013包括根据第一结果集在该数据库中的群组，将分子结构A和对应的群组成员分子结构传入GPU内的计算网格中进行子结构匹配计算。步骤S012得到的第一结果集和步骤S022得到的第二结果集是包含分子指纹相似度大于或等于80%的分子结构，在其他实施例中，可以根据实际需要调整筛选出结果集的相似度大小区间。

其中，本实施例中每个群组含有30-80个分子结构，其他实施例中，每个群组可以包含30-200个分子结构，并可随GPU性能的提升增加每个群组或计算网格的分子结构数量。步骤S023是将第二结果集中隶属于该数据库中同一个群组的分子结构放入同一个计算网格，同时传入存储于数据库中的快速剪枝信息，以加快子结构匹配计算的剪枝速度。其中，步骤S026中返回的是按照与待搜索分子B相似度由高到低排序的分子结构，在其他实施例中，可以根据实际需要调整返回分子结构的排列顺序。

请同时参阅图2，本实施例的步骤S0141具体为：分子结构A与第D群组的D1分子结构完成匹配，则将分子结构A存储于第D群组中；然后将分子结构A与第D群组内的所有分子结构进行子结构匹配；若分子结构A与D1、D22、D31分子结构完成匹配，但是与D32未匹配，则将分子结构A存储于D31的子节点中；并存储分子结构A与D31分子结构的相似度作为相互连接关系，即连接权信息。

仍以图2中的第D群组为例，本实施例的步骤S025具体为：将待搜索分子B与第D群组中的分子结构自上而下开始进行子结构匹配计算；先与顶层的D1分子结构进行子结构匹配计算，结果未完成匹配，则不返回结果；继续与下一层的分子结构进行子结构匹配计算，结果与D22分子结构完成匹配，则不再计算D22分子以下的所有子树分子结构，而将D22、D31、D32、D41、D42、D43分子结构全部作为结果；通过待搜索分子B与 D22分子结构的相似度以及D22分子结构与其下所有子树结构预存的连接关系，得到它们与待搜索分子B的相似度；按照所有结果中分子结构与待搜索分子B的相似度由高到低排序，作为结果列表返回给用户。

效果实施例

通过使用GMA、VF、VF2和本发明的搜索方法，搜索速度请见表1。1000万数据库内的随机测试表明，CPU版实际搜索速度提高将近30倍。

表1GMA、VF、VF2和本发明的搜索速度比较

	GMA	VF	VF2	本发明
					内存	O(N^3)	O(N^2)	O(N)	O(N^2)
CPU-better	O(N^3)	O(N^3)	O(N^2)	O(N*log(N))
					CPU-worst	O(N*N!)	O(N*N!)	O(N*N!)	O(N^3)

Claims

1.一种分子结构数据库的建立方法，其特征在于，其包括以下步骤：

2.根据权利要求1所述的分子结构数据库的建立方法，其特征在于：所述分子结构分子指纹的计算包括：a.对一个分子结构的所有键和原子进行分解；b.与一预设分子结构的所有键和原子对比，若同一个位置存在相同结构的，记为1；否，则记为0；c.得到该分子结构的由0和1组成的分子指纹字符串。

3.根据权利要求1所述的分子结构数据库的建立方法，其特征在于：所述分子指纹计算中该分子结构与预设分子结构的所有键和原子是以同样的线性路径排列。

4.根据权利要求2所述的分子结构数据库的建立方法，其特征在于：该预设分子结构是数据库中任一分子结构或预定义的含有所有种类键和原子的分子结构。

5.根据权利要求1所述的分子结构数据库的建立方法，其特征在于：步骤S013还包括预先将数个基础分子结构分别存储入数个独立的群组中。

6.根据权利要求5所述的分子结构数据库的建立方法，其特征在于：步骤S013包括根据第一结果集在该数据库中的群组，将分子结构A和对应的群组成员分子结构传入GPU内的计算网格中进行子结构匹配计算。

7.根据权利要求1所述的分子结构数据库的建立方法，其特征在于：步骤S0141中存储分子结构A与群组内其他分子结构的相互树形关系包括，将分子结构A与群组内其他分子结构进行子结构匹配计算，若与至少一个分子结构完成包含匹配，则将分子结构A分别存储于这些分子结构的子节点中，同时，若这些分子结构具有子树关系，则将分子结构A存储于这些子树关系最末端的子节点。

8.一种基于权利要求1至7任一项所述方法建立的数据库的分子结构搜索方法，其特征在于，其包括以下步骤：

步骤S021，对待搜索分子B进行分子指纹计算；

9.根据权利要求8所述的分子结构的搜索方法，其特征在于：步骤S023是将第二结果集中隶属于该数据库中同一个群组的分子结构放入同一个计算网格，同时传入存储于数据库中的快速剪枝信息，以加快子结构匹配计算的剪枝速度。

10.根据权利要求8所述的分子结构的搜索方法，其特征在于：步骤S026中返回的是按照与待搜索分子B相似度由高到低排序的分子结构。