CN102436545A

CN102436545A - 一种基于gpu加速的化学结构多样性分析方法

Info

Publication number: CN102436545A
Application number: CN2011103098084A
Authority: CN
Inventors: 徐峻; 严鑫
Original assignee: KMS MEDITECH Inc
Current assignee: KMS MEDITECH Inc
Priority date: 2011-10-13
Filing date: 2011-10-13
Publication date: 2012-05-02
Anticipated expiration: 2031-10-13
Also published as: CN102436545B

Abstract

一种基于GPU加速的化学结构多样性分析方法，包括：(a)读取存储设备中的查询库和被查询库中的化学结构连接表数据到主存储器；(b)将该数据分别分解为查询库和被查询库的化学环境编码的树状拓扑子图集，并存储在主存储器中；(c)将查询库和被查询库的化学环境编码的树状拓扑子图集分别与树状拓扑子图模板进行比较，以分别生成查询库和被查询库的二进制数据，并存储在主存储器中；(d)将查询库和被查询库的二进制数据从主存储器传输至帧缓存；(e)GPU从该帧缓存中读取该查询库和被查询库的二进制数据，并计算两者的相似度值；(f)将相似度值由帧缓存传输至主存储器中；(g)CPU从主存储器中读取相似度值，并输出至存储设备。

Description

一种基于GPU加速的化学结构多样性分析方法

技术领域

本发明总体涉及化学结构多样性分析方法。特别涉及基于图形处理单元(graphics processing unit，GPU)加速的化学结构多样性分析方法。

背景技术

随着高通量合成技术、高通量物质分离提取技术的成熟、完善，化学结构数据库的规模已由过去的成千上万个化学结构(每个化学结构表示一种化学品或化合物)增长到现在的成百万，甚至上千万个化学结构。这给工业界购买新颖的原料、先导化合物的筛选与设计带来了挑战。例如，如果一家机构已经拥有200万个化合物，欲再购买200万个化合物，那么他们将不仅需要避免单个化合物的重复，也要避免相似化合物的重复。为此，要对已有的化合物库与将要选择的化合物库进行化学结构多样性分析。这类分析涉及化学结构相似度计算，为了比较化学结构数目分别为M和N的两个化学结构的数据库，需要进行M x N次的化学结构相似度计算，而每两个化学结构相似度的计算涉及I x K次分子结构片段的比较。因此，当数据库化合物数量达到数十万以上规模时，所需的计算时间成本急速上扬，甚至需要经年累月方能完成此类计算。因此，很多企业和科研机构放弃这类分析，而购买大量重复原料，设计和筛选大量化学结构多样性贫乏的化合物，这造成了资源浪费、环境污染、成本居高不下以及创新效率降低。

近年来，用GPU并行浮点计算能力来加速科学计算逐渐成为国际趋势。一个GPU卡，相当于488个中央处理单元(CPU)的运算能力，其潜能令人振奋。但是，为了把GPU的潜能发挥出来，需要将计算问题并行化。因此目前亟需一种通过将计算问题并行化，而实现为大规模化学结构数据库的扩充和筛选提供基于GPU加速的化学结构多样性分析方法。

发明内容

本发明旨在提供一种通过将计算问题并行化，而为大规模化学结构数据库的扩充和筛选提供基于GPU加速的化学结构多样性分析的解决方案。由此解决化学结构多样性分析耗时长的问题，从而使企业和科研机构能有效进行化学结构多样性分析，避免购买大量重复原料，提高化学结构多样性储备，进而能节省资源、保护环境、降低成本以及提高创新效率。

为此，本发明提供一种基于GPU加速的化学结构多样性分析方法，其中包括输入设备、显示装置、主存储器、帧缓存、存储设备、处理器，从而完成化学结构数据库之间的比较。

其中，输入设备用于输入化学结构数据库的存储位置信息，相似度阈值。显示装置用于显示输入信息和结果信息。主存储器用于存储执行中的计算机程序，分解化学结构得到化学环境编码的树状拓扑子图集(Chemical Environment Encoded Dendric TopologicFragments，CEEDTFs)，并将CEEDTFs映射到N维位图上(N＞＝32，且N为整数)，得到的数据以二进制序列形式储存于主存储器。帧缓存用于存储GPU端执行的计算机程序，将CEEDTF s映射到N维位图上(N＞＝32，且N为整数)，得到的数据以二进制序列化形式存储于帧缓存。存储设备用于存储计算机程序文件、以连接表形式保存的化学结构数据库的SD文件和程序运行结果文件。

处理器是主要的数据处理设备，包括中央处理单元(CPU)和图形处理单元(GPU)。CPU用于分析输入设备输入的化学结构数据库中的结构数据，分解化学结构得到CEEDTFs，并将CEEDTFs映射到N维位图上(N＞＝32，且N为整数)得到二进制数据。GPU用于比较这些二进制数据，计算结构相似度和多样性。

根据本发明的一个方面，提供了一种基于图形处理单元加速的化学结构多样性分析方法，所述方法包括：(a)CPU读取存储设备中的查询库和被查询库中的化学结构连接表数据到主存储器；(b)将该查询库和该被查询库中的化学结构连接表数据分别分解为查询库化学环境编码的树状拓扑子图集和被查询库化学环境编码的树状拓扑子图集，并存储在主存储器中；(c)将所述查询库化学环境编码的树状拓扑子图集和所述被查询库化学环境编码的树状拓扑子图集分别与化学环境编码的树状拓扑子图模板进行比较，以分别生成查询库二进制数据和被查询库二进制数据，并存储在主存储器中；(d)将所述查询库二进制数据和所述被查询库二进制数据从所述主存储器传输至帧缓存；(e)GPU从该帧缓存中读取所述查询库二进制数据和所述被查询库二进制数据，并计算两者的相似度值；(f)将所述相似度值由帧缓存传输至主存储器中；(g)CPU从该主存储器中读取该相似度值，将它输出至存储设备。

优选地，步骤(b)中将化学结构连接表数据分解为化学环境编码的树状拓扑子图集，进一步包括：CPU遍历该化学结构中的所有原于，以每个原子为中心得到一个化学环境编码的树状拓扑子图；将得到的所有化学环境编码的树状拓扑子图中不重复的子图合并为化学环境编码的树状拓扑子图集。

优选地，所述化学环境编码的树状拓扑子图模板包括所有化学环境编码的树状拓扑子图中不重复的子图，且其中每个子图在该模板中均具有一个不同的唯一的编号。

优选地，步骤(c)中将化学环境编码的树状拓扑子图集与化学环境编码的树状拓扑子图模板进行比较以生成二进制数据，进一步包括：在主存储器中取N/8个字节的存储空间，其中N为该化学环境编码的树状拓扑子图模板中拓扑子图的数目；CPU将化学环境编码的树状拓扑子图集与化学环境编码的树状拓扑子图模板进行比较；如果该拓扑子图集中的某个子图在该拓扑子图模板中存在，则记下该拓扑子图在模板中的编号，并在所取出的存储空间中对应于编号的位上标记1，如果不存在，则标记0；比较完毕，得到对应于该拓扑子图集的二进制数据。

优选地，步骤(e)中计算两者的相似度值，通过以下计算公式计算：

优选地，所述查询库是一个或多个。

优选地，所述被查询库是一个或多个。

附图说明

图1是根据本发明的一个实施方案的实施基于GPU加速的化学结构多样性分析方法的硬件架构示意图。

图2是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学结构信息数据示意图。

图3是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学环境编码的树状拓扑子图集的生成示意图。

图4是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学环境编码的树状拓扑子图在主存储器中存储格式示意图。

图5是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的将化学结构信息转化为化学环境编码的树状拓扑子图集的流程图。

图6是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的获得化学环境编码的树状拓扑子图集模板的流程图。

图7是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的将化学环境编码的树状拓扑子图集转化为二进制数据的流程图。

图8是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的对两个化学结构数据库进行比较的数据处理流程图。

图9-1、图9-2、图9-3是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法对两个化学结构进行相似度计算的流程图。

图10是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的根据化学结构数据库A，从化学结构数据库B中遴选化学结构相似度大于80％的化合物(先导化合物筛选问题)流程图。

图11是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的根据化学结构数据库A，从化学结构数据库B中遴选化学结构相似度小于80％的化合物(购买新的化合物或已有化学结构数据库进行扩充问题)流程图。

具体实施方式

实施例一

图1是根据本发明的一个实施方案的实施基于GPU加速的化学结构多样性分析方法的硬件架构示意图。该硬件架构包括输入设备、显示装置、主存储器、帧缓存、存储设备、中央处理单元、图形处理单元。各硬件通过系统总线相互连接，进行信息的传递。

中央处理单元和图形处理单元是该化学结构数据库比较方法中进行数据处理的核心，负责处理、运算化学结构数据库比较过程中读取或产生的所有数据。而总线则负责所有数据的交换。主存储器用于存储处于执行状态的程序和CPU需要处理或处理得到的数据。帧缓存用于存储GPU需要处理的数据。存储设备用于存储计算机程序以及计算机操作数据，其具体可分为硬盘、软盘、磁带、光存储设备以及其它数据存储设备。显示装置是向用户展示计算机操作结果的设备。而输入设备包含键盘、鼠标，用于接收用户输入信息，以控制计算机运行或为计算机提供操作原始数据。

图2是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学结构信息数据示意图。化学结构信息以文本格式存储于文本文件中，如图所示：

①号区域包含的化学结构信息有：化学结构名称(这里是L-Alanine)、绘制软件名称、作者名称、日期等等；

②号区域包含的化学结构信息有：左起第一个数字表示原子数目(这里为6)，左起第二个数字表示化学键数目(这是为5)，左起第五个数字表示该化学结构是否具有手性(这里为1表示有，0表示没有)；

③号区域包含所有原子的信息：每一行左起前三个数字表示该原子的X、Y、Z坐标值，第四个字符表示原子符号，此区域的其他化学结构信息这里不需要，因此为清楚起见，不再赘述；

④号区域包含所有化学键的信息：左起前两个数字表示相互连接的原于的原子序号，左起第三个数字表示化学键的类型(1为单键，2为双键，3为三键)，此区域的其他化学信息这里不需要，因此为清楚起见，不再赘述；

⑤号区域包含说明性信息。

最后，“M END”表示该化学结构信息结束。

图3是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学环境编码的树状拓扑子图示意图。化学环境编码的树状拓扑子图包含2个部分：(1)中心原子(数字表示)；(2)周围原子层，原于层与中心原子相距一根化学键范围。由图示的化学结构得到了十三个化学环境编码的树状拓扑子图，即该化学结构的化学环境编码的树状拓扑子图集(Chemical Environment EncodedDendric Topologic Fragments，CEEDTFs)。每个子图左边对应的数字表示该子图是以哪个原子为中心的，如：第一个子图左边的数字1表示该子图是以化学结构中编号为1的原子为中心的；第九个子图左边的数字有3个，分别为9，10，11，这表示分别以化学结构中编号为9，10，11的原子为中心的三个子图完全相同。化学环境编码的树状拓扑子图的特点是，记录原子和化学键的化学环境信息，如：第一个子图的三个原子都位于六元环中，这些信息将被记录在化学环境编码的树状拓扑子图的原子数据中；同样该子图的两根化学键也位于六元环中，这个信息将被记录在化学环境编码的树状拓扑子图的化学键数据中。如果有原子或化学键位于芳香系统中，此信息也同样被记录。

图4是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的化学环境编码的树状拓扑子图在主存储器中存储格式示意图。化学环境编码的树状拓扑子图是按一定的规则存储于主存储器中的，其中共分两个区域进行存储：(1)原子存储区域，存储每个原子的原子符号，以及原子的结构特征，也即原子特征，如：原子的核电荷数、原子的度(与此原子相连的化学键的数目)、原子的标记(是否位于芳香环中等)等；(2)化学键存储区域，存储构成化学键的两个原子的原子序号，也即键连原子序号，以及化学键类型(单键、双键、三键或芳香键)。

图5是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的将化学结构信息转化为化学环境编码的树状拓扑子图集(CEEDTFs)流程图。转化过程如下：在步骤503，CPU读取存储设备中的化学结构的连接表数据；在步骤505，遍历该化学结构中的所有原子，以每个原子为中心得到一个化学环境编码的树状拓扑子图(见图3)；在步骤507，取得到的所有化学环境编码的树状拓扑子图中不重复的子图；在步骤509，将所取得的子图组合为化学环境编码的树状拓扑子图集。

图6是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的获得化学环境编码的树状拓扑子图模板的流程图。过程如下：在步骤603，CPU读取存储设备中的化学结构的连接表数据；在步骤605，根据图5所示的流程处理该连接表数据，得到化学环境编码的树状拓扑子图；在步骤607，比较所有得到的化学环境编码的树状拓扑子图，取出不重复的拓扑子图；在步骤609，将不重复的拓扑子图组合为化学环境编码的树状拓扑子图模板，并按顺序(由1开始)给每个拓扑子图编号。

图7是根据本发明的一个实施方案的基于GPU加速的化学结构多样性分析方法的将化学环境编码的树状拓扑子图集转化为二进制数据的流程图。转化过程如下：在步骤701，在主存储器中取N/8个字节的存储空间(其中N为化学环境编码的树状拓扑子图模板中拓扑子图的数目)，用于保存即将得到的二进制数据；在步骤703，CPU读取主存储器中贮存的化学环境编码的树状拓扑子图集；在步骤705，CPU将化学环境编码的树状拓扑子图集与化学环境编码的树状拓扑子图模板进行比较；在步骤707，在比较的过程中，如果拓扑子图集中的某个子图在拓扑子图模板中存在，则记下该拓扑子图在模板中的编号；在步骤709，在步骤701中取出的存储空间中对应于编号的位上标记1，如果不存在，则标记0；在步骤711，比较完毕，得到对应于该拓扑子图集的二进制数据。

图8给出了本发明基于GPU加速的化学结构多样性分析方法的对两个数据库进行比较的数据处理流程图。这里需要提前说明的是被查询库和查询库的概念，查询库用于提供查询的化学结构，被查询库用于和查询的化学结构进行比较，得到该查询结构与被查询库的关系。一般情况下被查询库要比查询库庞大。具体的处理过程如下：在步骤801和803，CPU分别读取存储设备中的查询库和被查询库的化学结构的连接表数据到主存储器；在步骤805，根据图5的流程，CPU处理这些数据，得到化学环境编码的树状拓扑子图集，并存储于主存储器；在步骤807，根据图7的流程，CPU处理化学环境编码的树状拓扑子图集，将其映射到N维位图上，以二进制数据格式存储于主存储器；在步骤809，通过总线将这些二进制数据由主存储器传输到帧缓存；在步骤821，GPU读取帧缓存中的二进制数据，计算相似度值，并存储于帧缓存；在步骤823，通过总线将这些相似度值由帧缓存传输到主存储器；在步骤825，CPU读取主存储器中的相似度值并输出到存储设备。

图9-1、图9-2、图9-3给出了本发明基于GPU加速的化学结构多样性分析方法对两个化学结构进行相似度计算的流程图。

如图9-1所示，对化学结构A进行分解，得到化学环境编码的树状拓扑子图集(CEEDTFs)；将拓扑子图集与拓扑子图模板进行比较，产生二进制数据。这里化学结构A共分解得到9个化学环境编码的树状拓扑子图，对应于拓扑子图模板中的子图编号为18，21，24，26，31，33，84，91，119。故在二进制数据对应的位上标记1，其余位为0；将产生的二进制数据通过CUDA函数cudaMemcpy()由主存储器传输到帧缓存。

如图9-2所示，对化学结构B进行分解，得到化学环境编码的树状拓扑子图集；将拓扑子图集与拓扑子图模板进行比较，产生二进制数据。这里化学结构B共分解得到6个化学环境编码的树状拓扑子图，对应于拓扑子图模板中的子图编号为18，21，24，26，31，33。故在二进制数据对应的位上标记1，其余位为0；将产生的二进制数据通过CUDA函数cudaMalloc()由主存储器传输到帧缓存。

如图9-3所示，通过GPU处理二进制数据，计算相似度值：将化学结构A的二进制数据与化学结构B的二进制数据分别进行一次位与运算和一次位或运算，位与运算的二进制结果中设置为1的位的数目除以位或运算的二进制结果中设置为1的位的数目，得到的值即为化学结构A与化学结构B的相似度值，相似度计算公式(一)如下：

通过cudaMemcpy()将相似度值数据由帧缓存传输到主存储器；CPU读取相似度值并传输到存储设备。

实施例二

图10给出了本发明基于GPU加速的化学结构多样性分析方法的根据化学结构数据库A，从化学结构数据库B中遴选化学结构相似度大于80％的化合物(先导化合物筛选问题)流程图。在本实施例中，化学结构数据库A包含2个化学结构(先导化学物)，化学结构数据库B包含20个化学结构。具体流程如下：在步骤1003，根据图5的流程，对化学结构数据库A中的2个结构进行分解产生每个结构的CEEDTFs，这里2个结构故有2个CEEDTFs。在步骤1007，根据图7流程，将2个CEEDTFs分别与CEEDTFs模板比较，产生2组二进制数据。在步骤1005和步骤1009，对化学结构数据库B同样进行步骤1003和1007的操作，产生20组二进制数据。在步骤1011，CPU将所有产生的二进制数据(共22组)通过CUDA运行时函数cudaMemcpy()由主存储器传输到帧缓存。在步骤1013，GPU读取帧缓存中的22组二进制数据，将化学结构数据库A的每组二进制数据(共2组)与化学结构数据库B的每组二进制数据(共20组)进行比较，根据相似度计算公式(一)计算相似度值，共产生2*20＝40个相似度值数据，存储于帧缓存中。在步骤1015，CPU将所有相似度值数据通过CUDA运行时函数cudaMemcpy()由帧缓存传输到主存储器。在步骤1017，CPU读取主存储器中的相似度值数据，输出值大于80％的结果到存储设备。

结果如下：

在数据库B中找到1个化学结构，即第17个化学结构与数据库A中的第1个化学结构的相似度值大于80％，为88.24％。

在数据库B中找到2个化学结构，即第9个和第12个化学结构与数据库A中的第2个化学结构的相似度值大于80％，分别为82.35％，90.91％。

实施例三

图11是本发明基于GPU加速的化学结构多样性分析方法的根据化学结构数据库A，从化学结构数据库B中遴选化学结构相似度小于80％的化合物(购买新的化合物或对已有化学结构数据库进行扩充问题)流程图。其中化学结构数据库A含74个化学结构，是已有的数据库。现想对其扩充，从化学结构数据库B(包含249个化学结构)中遴选与数据库A的化学结构相似度(这里一个化学结构与一个化学结构数据库的相似度是指，该化学结构与该数据库中的每个化学结构的相似度中的最大值)小于80％的化合物放入数据库A中。具体流程如下：(1)对化学结构数据库A中的74个结构进行分解产生每个结构的CEEDTFs，这里共产生74个CEEDTFs；(2)将74个CEEDTFs分别与CEEDTFs模板比较，产生74组二进制数据；(3)对化学结构数据库B同样进行上述(1)、(2)操作，产生249组二进制数据；(4)CPU将所有产生的二进制数据(共249+74＝323组)通过CUDA运行时函数cudaMemcpy()由主存储器传输到帧缓存；(5)GPU读取帧缓存中的323组二进制数据，将化学结构数据库A的每组二进制数据(共2组)与化学结构数据库B的每组二进制数据(共20组)进行比较，根据相似度计算公式(一)计算相似度值，共产生2*20＝40个相似度值数据，存储于帧缓存中；(6)CPU将所有相似度值数据通过CUDA运行时函数cudaMemcpy()由帧缓存传输到主存储器；(7)CPU读取主存储器中的相似度值数据，输出化学结构数据库B中的化学结构与化学结构数据库A的相似度值小于80％的结果到存储设备。

结果如下：

在化学结构数据库B中共找到109个化学结构与化学结构数据库A的相似度值小于80％。

对于基于GPU 速的化学结构多样性分析方法的时间优化问题，我们做过如下测试：根据化学结构数据库A(包含5898个化学结构)，从化学结构数据库B(包含6000个化学结构)中遴选化学结构相似度小于80％的化合物。

硬件设备信息如下：

CPU：Intel Westmere E5620 数量：2

主板：Intel 5520chipset Motherboard 数量：1

主存储器：Kinston DDR3 1333Mhz 2G ECC Reg 数量：6

硬盘：IT SATA II Enterprise Storage Hard Drive 数量：1

GPU：Nvidia Tesla GPU Fermi C2050 数量：3

测试结果：

基于纯CPU的化学结构多样性分析方法耗时：357.72(Sec)

基于GPU加速的化学结构多样性分析方法耗时：0.53(Sec)

尽管已经针对当前认为优选实施例的方面对本发明进行了描述，但是可以理解的是，本发明并不限于所公开的实施例。相反，本发明意在涵盖包含在所附权利要求书精神和范围内的各种不同变型和等同布置。所附权利要求书的范围应进行最宽泛的理解，从而涵盖所有此类变型以及等同结构和功能。

Claims

1.一种基于图形处理单元加速的化学结构多样性分析方法，所述方法包括：

(a)采用中央处理单元读取存储设备中的查询库和被查询库中的化学结构连接表数据到主存储器；

(b)将该查询库和该被查询库中的化学结构连接表数据分别分解为查询库化学环境编码的树状拓扑子图集和被查询库化学环境编码的树状拓扑子图集，并存储在主存储器中；

(c)将所述查询库化学环境编码的树状拓扑子图集和所述被查询库化学环境编码的树状拓扑子图集分别与化学环境编码的树状拓扑子图模板进行比较，以分别生成查询库二进制数据和被查询库二进制数据，并存储在主存储器中；

(d)将所述查询库二进制数据和所述被查询库二进制数据从所述主存储器传输至帧缓存；

(e)采用图形处理单元从该帧缓存中读取所述查询库二进制数据和所述被查询库二进制数据，并计算两者的相似度值；

(f)将所述相似度值由帧缓存传输至主存储器中；

(g)采用中央处理单元从该主存储器中读取该相似度值，将它输出至存储设备。

2.如权利要求1所述的基于图形处理单元加速的化学结构多样性分析方法，其中步骤(b)中将化学结构连接表数据分解为化学环境编码的树状拓扑子图集，进一步包括：

中央处理单元遍历该化学结构中的所有原子，以每个原子为中心得到一个化学环境编码的树状拓扑子图；

将得到的所有化学环境编码的树状拓扑子图中不重复的子图合并为化学环境编码的树状拓扑子图集。

3.如权利要求1或2所述的基于图形处理单元加速的化学结构多样性分析方法，其中所述化学环境编码的树状拓扑子图模板包括所有化学环境编码的树状拓扑子图中不重复的子图，且其中每个子图在该模板中均具有一个不同的唯一的编号。

4.如权利要求3所述的基于图形处理单元加速的化学结构多样性分析方法，其中步骤(c)中将化学环境编码的树状拓扑子图集与化学环境编码的树状拓扑子图模板进行比较以生成二进制数据，进一步包括：

在主存储器中取N/8个字节的存储空间，其中N为该化学环境编码的树状拓扑子图模板中拓扑子图的数目；

中央处理单元将化学环境编码的树状拓扑子图集与化学环境编码的树状拓扑子图模板进行比较；

如果该拓扑子图集中的某个子图在该拓扑子图模板中存在，则记下该拓扑子图在模板中的编号，并在所取出的存储空间中对应于编号的位上标记1，如果不存在，则标记0；

比较完毕，得到对应于该拓扑子图集的二进制数据。

5.如权利要求1、2和4中任一所述的基于图形处理单元加速的化学结构多样性分析方法，其中步骤(e)中计算两者的相似度值，通过以下计算公式计算：

6.如权利要求3所述的基于图形处理单元加速的化学结构多样性分析方法，其中步骤(e)中计算两者的相似度值，通过以下计算公式计算：

7.如权利要求1-6任一所述的基于图形处理单元加速的化学结构多样性分析方法，其中所述查询库是一个或多个。

8.如权利要求1-6任一所述的基于图形处理单元加速的化学结构多样性分析方法，其中所述被查询库是一个或多个。