CN112133379A - 一种化学反应搜索方法、装置及系统、图形处理器 - Google Patents
一种化学反应搜索方法、装置及系统、图形处理器 Download PDFInfo
- Publication number
- CN112133379A CN112133379A CN202010991588.7A CN202010991588A CN112133379A CN 112133379 A CN112133379 A CN 112133379A CN 202010991588 A CN202010991588 A CN 202010991588A CN 112133379 A CN112133379 A CN 112133379A
- Authority
- CN
- China
- Prior art keywords
- chemical reaction
- reaction
- target
- matching degree
- target chemical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 513
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 239000000376 reactant Substances 0.000 claims description 57
- 239000012634 fragment Substances 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 8
- 238000006757 chemical reactions by type Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 13
- 239000000126 substance Substances 0.000 description 25
- 150000001875 compounds Chemical class 0.000 description 7
- 238000002907 substructure search Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000003054 catalyst Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- -1 reaction conditions Substances 0.000 description 2
- 230000027756 respiratory electron transport chain Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000006069 Suzuki reaction reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种化学反应搜索方法、装置及系统、图形处理器,具体的,化学反应搜索方法可以应用于图形处理器,图形处理器可以获取目标化学反应的反应属性,以及多个已知化学反应的反应属性,这样基于目标化学反应的反应属性和已知化学反应的反应属性,可以并行计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度体现已知化学反应属于目标化学反应的反应类别的概率,由于图形处理器具有并行处理数据的特性,这样,不同的目标化学反应相对于已知化学反应的子结构匹配度可以并行处理,相比于顺序执行而言,可以减少子结构匹配度计算所消耗的时长,提高计算子结构匹配度的计算效率。
Description
技术领域
本发明涉及计算机领域,特别是涉及一种化学反应搜索方法、装置及系统、图形处理器。
背景技术
化学反应搜索,是指从规模庞大的化学反应数据库中,检索出符合预设搜索条件的化学反应,其在化学信息检索和化合物逆合成分分析中应用非常广泛。常见的化学反应的搜索具有以下几个重要因素,例如反应物、产物、反应条件、催化剂等。
举例来说,可以利用目标化学反应的反应物和产物去搜索包含该目标化学反应的反应物和产物的化学反应,搜索出的化学反应包含目标化学反应的一些特性,且较目标化学反应更为复杂,因此可以认为搜索出的化学反应属于目标化学反应的反应类别,从而实现了对某一类的化学反应的搜索。
然而,随着化学研究发现的新分子的数量越来越庞大,以及使用计算机构建虚拟分子技术的出现,已知分子数据库中的分子数量逐渐增多,已知化学反应数据库中的数据量也逐渐增多,大概从百万增加到千万,且仍然在不断增长,传统的搜索满足条件的化学反应的计算方法中,耗时非常长,面对较大的数据量时,不能满足实际需求,此外,传统的化学反应搜索的准确性也不高。
发明内容
为解决上述技术问题,本申请实施例提供一种化学反应搜索方法、装置及系统、图形处理器,从而提高化学反应搜索的效率和准确性。
本申请实施例提供了一种化学反应搜索方法,应用于图形处理器,所述方法包括:
获取目标化学反应的反应属性,以及多个已知化学反应的反应属性;
基于所述目标化学反应的反应属性和所述已知化学反应的反应属性,并行计算所述目标化学反应相对于所述已知化学反应的子结构匹配度,所述子结构匹配度体现所述已知化学反应属于所述目标化学反应的反应类别的概率。
可选的,所述目标化学反应的反应属性包括对所述目标化学反应的反应中心编码得到的第一化学反应指纹序列,所述目标化学反应的反应中心为所述目标化学反应中发生变化的反应物分子片段和对应的产物分子片段;所述已知化学反应的反应属性包括对所述已知化学反应的反应物和产物进行编码得到的第二化学反应指纹序列。
可选的,所述第一化学反应指纹序列和所述第二化学反应指纹序列为以下分子指纹的一种:分子接入系统指纹、摩根指纹、扩展连通性指纹。
可选的,所述子结构匹配度根据子结构搜索算法计算得到。
可选的,所述方法还包括:
从所述已知化学反应中确定出子结构匹配度大于预设值的化学反应作为搜索结果,所述搜索结果属于所述目标化学反应的反应类别。
本申请实施例还提供了一种化学反应搜索装置,应用于图形处理器,所述装置包括:
属性获取单元,用于获取目标化学反应的反应属性,以及多个已知化学反应的反应属性;
匹配度计算单元,用于基于所述目标化学反应的反应属性和所述已知化学反应的反应属性,并行计算所述目标化学反应相对于所述已知化学反应的子结构匹配度,所述子结构匹配度体现所述已知化学反应属于所述目标化学反应的反应类别的概率。
可选的,所述目标化学反应的反应属性包括对所述目标化学反应的反应中心编码得到的第一化学反应指纹序列,所述目标化学反应的反应中心为所述目标化学反应中发生变化的反应物分子片段和对应的产物分子片段;所述已知化学反应的反应属性包括对所述已知化学反应的反应物和产物进行编码得到的第二化学反应指纹序列。
可选的,所述第一化学反应指纹序列和所述第二化学反应指纹序列为以下分子指纹的一种:分子接入系统指纹、摩根指纹、扩展连通性指纹。
可选的,所述子结构匹配度根据子结构搜索算法计算得到。
可选的,所述装置还包括:
搜索结果确定单元,用于从所述已知化学反应中确定出子结构匹配度大于预设值的化学反应作为搜索结果,所述搜索结果属于所述目标化学反应的反应类别。
本申请实施例还提供了一种图形处理器,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行所述的化学反应搜索方法。
本申请实施例还提供了一种化学反应搜索系统,包括至少一个所述的图形处理器。
本申请实施例提供了一种化学反应搜索方法、装置及系统、图形处理器,具体的,化学反应搜索方法可以应用于图形处理器,图形处理器可以获取目标化学反应的反应属性,以及多个已知化学反应的反应属性,这样基于目标化学反应的反应属性和已知化学反应的反应属性,可以并行计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度体现已知化学反应属于目标化学反应的反应类别的概率,由于图形处理器具有并行处理数据的特性,这样,不同的目标化学反应相对于已知化学反应的子结构匹配度可以并行处理,相比于顺序执行而言,可以减少子结构匹配度计算所消耗的时长,提高计算子结构匹配度的计算效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种化学反应搜索方法的流程图;
图2为本申请实施例提供的一种化学反应中反应物和产物的示意图;
图3为本申请实施例提供的一种反应中心的示意图;
图4为本申请实施例提供的一种化学反应搜索装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,可以从规模庞大的化学反应数据库中检索出符合预设搜索条件的化学反应,常见的搜索条件可以包括反应物、产物、反应条件、催化剂等。举例来说,可以利用目标化学反应的反应物和产物去搜索包含该目标化学反应的反应物和产物的化学反应,搜索出的化学反应包含目标化学反应的一些特性,且较目标化学反应更为复杂,因此可以认为搜索出的化学反应属于目标化学反应的反应类别,从而实现了对某一类的化学反应的搜索。
然而随着化学研究发现的新分子的数量越来越庞大,以及使用计算机构建虚拟分子技术的出现,已知分子数据库中的分子数量逐渐增多,已知化学反应数据库中的数据量也逐渐增多,大概从百万增加到千万,且仍然在不断增长,传统的搜索满足条件的化学反应的计算方法中,耗时非常长,面对较大的数据量时,不能满足实际需求,此外,传统的化学反应搜索的准确性也不高。
发明人经过研究发现,传统的化学反应搜索的计算方法中,耗时长的主要原因是,传统算法依赖于已知化学数据库的读物速度和中央处理器(Central Processing Unit,CPU)的计算速度,在目前磁盘读取速率和中央处理器性能增长日趋平缓的情势下,仅仅依靠硬件性能升级,计算速度的提升将非常有限,因此不能满足增长速度迅猛的大量的化学反应的搜索计算。而中央处理器不能实现快速的化学反应搜索计算的原因在于,中央处理器的串行特性,使其能够实现数据的串行运算,即中央处理器在一个时间段内只计算一个已知化学反应与目标化学反应的匹配度,所有匹配度运算按顺序依次完成计算,其运算耗时将随着已知化学反应数据库中化学反应的数量的不断增长而线性增长,这很明显不能满足实际需求。
基于此,本申请实施例提供了一种化学反应搜索方法、装置及系统、图形处理器,具体的,化学反应搜索方法可以应用于图形处理器,图形处理器可以获取目标化学反应的反应属性,以及多个已知化学反应的反应属性,这样基于目标化学反应的反应属性和已知化学反应的反应属性,可以并行计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度体现已知化学反应属于目标化学反应的反应类别的概率,由于图形处理器具有并行处理数据的特性,这样,不同的目标化学反应相对于已知化学反应的子结构匹配度可以并行处理,相比于顺序执行而言,可以减少子结构匹配度计算所消耗的时长,提高计算子结构匹配度的计算效率。
下面结合附图,通过实施例来详细说明本申请实施例提供的一种化学反应搜索方法、装置及系统的具体实现方式。
参考图1所示为本申请实施例提供的一种化学反应搜索方法的流程图,可以应用于图形处理器(Graphics Processing Unit,GPU),其中图形处理器中可以具有多个计算单元,这些计算单元可以并行对数据进行处理,例如图形处理器中可以包括上千个计算单元,因此可以同时进行上千个数据的处理。本申请实施例提供的化学反应搜索方法可以包括以下步骤:
S101,获取目标化学反应的反应属性以及多个已知化学反应的反应属性。
本申请实施例中,图形处理器可以进行已知化学反应的搜索,例如可以对某一类的化学反应进行搜索,其中目标化学反应可以表征一类化学反应,根据与目标化学反应的匹配程度对已知化学反应进行筛选,具体的,可以通过计算目标化学反应相对于已知化学反应的子结构匹配度,确定出属于目标化学反应的反应类别的已知化学反应。其中,目标化学反应可以是新研究出的化学反应,也可以是反应特性未知的化学反应,已知化学反应是经过研究的化学反应,例如可以是反应特性已知的化学反应,已知化学反应可以存储在已知化学反应数据库中,这样在确定目标化学反应为已知化学反应的子结构后,可以根据已知化学反应的化学特性对目标化学反应进行分析。
对某一类的化学反应的搜索可以类比于化合物子结构的搜索,在化学信息领域,化合物的子结构指的是,一个化合物的分子结构中的一部分与另一化合物完全对应,即前者包含后者的结构,则后者可以作为前者的子结构,这里的完全对应包括原子一一对应,原子之间的化学键也一一对应。类似的,若一个化学反应的反应属性的一部分与另一化学反应属性完全对应,即前者包含后者的反应属性,且前者比后者更加复杂,则可以认为前者属于后者的反应类型,若反应属性包括反应中的化学分子,这里的完全对应包括化学分子的原子一一对应,原子之间的化学键也一一对应。
目标化学反应的反应属性和已知化学反应的反应属性可以包括反应物、产物、反应条件、催化剂、溶剂等的至少一种,例如目标化学反应的反应属性和已知化学反应的反应属性可以包括反应物和产物的化学分子,从而利用目标化学反应的反应物和产物、已知化学反应的反应物和产物,可以进行化学反应的子结构匹配度的计算。
通常来说,反应物和产物的化学分子的表现形式为化学式,体现组成该化学分子的原子和分子键,分子键可以体现组成该化学分子的原子之间的连接关系,为了便于子结构匹配度的计算,化学式可以通过数字化的形式体现,即可以对化学分子进行编码,具体的,可以将分子的化学式转换为比特序列,该过程可以称为分子编码,比特序列称为分子指纹。
因此,目标化学反应的反应属性可以包括目标化学反应的反应物和产物的化学分子,具体可以包括目标化学反应的反应物的分子指纹和产物的分子指纹,反应物的分子指纹可以通过对反应物的原子和化学键进行分子编码得到,产物的分子指纹可以通过产物的原子和化学键进行分子编码得到。同理,已知化学反应的反应属性可以包括已知化学反应的反应物和产物的化学分子,具体可以包括已知化学反应的反应物的分子指纹和产物的分子指纹,反应物的分子指纹可以通过对反应物的原子和化学键进行分子编码得到,产物的分子指纹可以通过产物的原子和化学键进行分子编码得到。
分子指纹可以为有多种类型,例如可以为:分子接入系统(Molecular ACCessSystem,MACCS)指纹、摩根(Morgan)指纹、扩展连通性指纹(Extented ConnectivityFingerprints)等,需要说明的是,目标化学反应中的反应物的分子指纹和产物的分子指纹,以及已知化学反应中的反应物的分子指纹和产物的分子指纹均具有相同类型的分子指纹,从而利于目标化学反应和已知化学反应之间的子结构匹配度的计算。
具体的,可以将目标化学反应的反应物的分子指纹和产物的分子指纹进行拼接,得到目标化学反应的分子指纹,作为目标化学反应的反应属性,以及,将已知化学反应的反应物的分子指纹和产物的分子指纹进行拼接,得到已知化学反应的分子指纹,作为已知化学反应的反应属性。
随着近年来化学工业合成越来越多的新化合物,以及不断发现的新的天然化合物,与之相对应的具有新功能、新特性的化学结构片段、官能团以及带点离子基团结构的数量越来越庞大,甚至还在不断增长,因此实际操作中,若通过目标化学反应的反应物、产物,以及已知化学反应的反应物、产物的全部信息来获取二者的子结构匹配度,从而产生较大的数量计算量。
事实上,针对目标化学反应和已知化学反应进行研究后发现,化学反应中反应物和产物仅有部分分子片段不同,很多化学反应的反应物并不完全一致,但是这些反应有着相同的反应机理,从原子微观角度来看,化学反应是电子在不同的原子之间发生了转移,而有着相同机理的化学反应,其电子转移机制完全相同,这就决定这某个化学反应能否发生,即决定与化学反应对应的电子转移过程能否发生的因素,是反应物局部的某些原子以及这些原子与周围原子的化学键关系是否满足该类型化学反应的要求。
也就是说,在反应物中仅有部分分子片段发生了改变,利用反应物的分子指纹和产物的分子指纹作为化学反应的反应属性,容易引入和反应无关的较多信息,从而降低实际发生变化的比重,影响化学反应的子结构搜索的准确性。
因此,本申请实施例中,可以确定出化学反应的反应中心,反应中心为化学反应中发生变化的反应物分子片段和对应的产物分子片段,微观角度来说,反应中心是对化学反应具有决定性影响的原子与周围的原子构成的分子片段,而后根据反应中心确定化学反应的反应属性。可以理解的是,目标化学反应的反应属性和已知化学反应的反应属性中的至少一个可以根据其对应的反应中心确定,利于提高子结构匹配度的计算效率。
具体的,目标化学反应的反应属性可以根据目标化学反应的反应中心确定,目标化学反应的反应中心为在目标化学反应中发生变化的反应物分子片段和对应的产物分子片段,目标化学反应的反应中心可以作为目标化学反应的简化反应式。已知化学反应的反应属性可以根据已知化学反应的反应中心确定,已知化学反应的反应中心为已知化学反应中发生变化的反应物分子片段和对应的产物分子片段,已知化学反应的反应中心作为可以已知化学反应的简化反应式。
举例来说,参考图2所示,为本申请实施例提供的一种化学反应中反应物和产物的示意图,该化学反应为铃木偶联反应,其中箭头指示反应进行方向,箭头左侧为反应物C7H7Cl和C6H7O2B,箭头右侧为产物C13H11,比较反应物C7H7Cl、反应物C6H7O2B和产物C13H11中的原子和化学键可以得到化学反应中的反应中心,参考图3所示,为本申请实施例提供的一种反应中心的示意图,箭头指示反应进行方向,箭头左侧为反应中心中的反应物分子片段C3H4Cl和C3H6O2B,箭头右侧为反应中心中的产物分子片段C6H8。
举例来说,目标化学反应的反应属性可以包括目标化学反应的第一化学反应指纹序列,第一化学反应指纹序列可以通过对目标化学反应的反应中心编码得到,目标化学反应的反应中心包括目标化学反应中发生变化的反应物分子片段和对应的产物分子片段,则第一化学反应指纹序列可以对目标化学反应中发生变化的反应物分子片段和对应的产物分子片段编码得到,具体的,可以对目标化学反应中发生变化的反应物片段编码得到第一反应物分子指纹,对对应的产物分子片段编码得到第一产物分子指纹,对第一反应物分子指纹和第一产物分子指纹进行拼接得到第一化学反应指纹序列。
已知化学反应的反应属性可以包括已知化学反应的第二化学反应指纹序列,第二化学反应指纹序列可以通过对已知化学反应的反应物和产物进行编码得到,具体的,可以对已知化学反应中的反应物进行编码得到第二反应物分子指纹,对已知化学反应中的产物进行编码得到第二产物分子指纹,对第二反应物分子指纹和第二产物分子指纹进行拼接得到第二化学反应指纹序列。
具体的,目标化学反应的第一化学反应指纹序列和已知化学反应的第二化学反应指纹序列为以下分子指纹的一种:分子接入系统指纹、摩根指纹、扩展连通性指纹。
本申请实施例中,图形处理器获取的目标化学反应的反应属性的数量可以和图形处理器本身的计算处理相关,具有的,图形处理器可以获取一个目标化学反应的反应属性,以及多个已知化学反应的反应属性,从而计算该目标化学反应相对于各个已知化学反应的子结构匹配度,当然也可以获取多个目标化学反应的反应属性,以及多个已知化学反应的反应属性,从而计算多个目标化学反应相对于多个已知化学反应的子结构匹配度。
已知化学反应的反应属性可以存储在存储设备中的数据库中,例如已知化学反应的第二化学反应指纹序列可以存在已知化学反应指纹库中,则获取已知化学反应的反应属性可以具体为,从已知化学反应指纹库中获取已知化学反应的第二化学反应指纹序列。在具体实施时,已知化学反应的反应属性可以读取到中央处理器(CPU)的内存中,而后转移到图形处理器的内存中,则图形处理器可以从图形处理器的内存中获取已知化学反应的反应属性。
S102,基于目标化学反应的反应属性和已知化学反应的反应属性,并行计算目标化学反应相对于已知化学反应的子结构匹配度。
图形处理器在获取到目标化学反应的反应属性和已知化学反应的反应属性后,可以基于目标化学反应的反应属性和已知化学反应的反应属性,计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度可以体现已知化学反应属于目标化学反应的反应类别的概率,例如,可以计算目标化学反应的第一化学反应指纹序列与已知化学反应的第二化学反应指纹序列的匹配程度,指纹序列的匹配程度可以利用指纹序列的相似度计算方式,也可以将第一化学反应指纹序列和第二化学反应指纹序列作为两个化合物,利用子结构搜索算法计算得到。
在目标化学反应的反应属性根据目标化学反应的反应中心确定时,目标化学反应的反应中心在目标化学反应的反应属性中的占比较高,因此利用目标化学反应的反应属性和已知化学反应的反应属性确定的目标化学反应相对于已知化学反应之间的子结构匹配度,与目标化学反应的反应中心关联较大,甚至于主要体现的是目标化学反应的反应中心和已知化学反应的匹配程度,因此计算得到的子结构匹配度准确性更高。
由于图形处理器中具有多个计算单元,每个计算单元均可以独立的进行数据的处理,因此可以利用图形处理器中的多个计算单元并行计算目标化学反应相对于已知化学反应的子结构匹配度,即可以在同一时间段计算同一目标化学反应相对于多个已知化学反应的子结构匹配度,也可以在同一时间段计算多个目标化学反应相对于同一已知化学反应的子结构匹配度,还可以在同一时间段计算不同目标化学反应相对于不同已知化学反应的子结构匹配度,从而提高子结构匹配度的计算效率。可以理解的是,图形处理器中的计算单元数量越多,子结构匹配度的并行处理效率越高。
图形处理器在计算得到目标化学反应相对于已知化学反应的子结构匹配度后,可以将计算结果存储至内存中以供后续使用。例如可以根据目标化学反应相对于多个已知化学反应的子结构匹配度,从多个已知化学反应中确定出与目标化学反应的子结构匹配度高于预设值的化学反应作为搜索结果,此时搜索结果属于目标化学反应的反应类别。
其中,目标化学反应可以通过简化反应(即反应中心)表示,简化反应可以表征一类化学反应,在搜索结果中的化学反应包括该简化反应时,搜索结果属于该类化学反应,从而实现了一类化学反应的搜索,即化学反应子结构搜索。
本申请实施例提供了一种化学反应搜索方法,化学反应搜索方法可以应用于图形处理器,图形处理器可以获取目标化学反应的反应属性,以及多个已知化学反应的反应属性,这样基于目标化学反应的反应属性和已知化学反应的反应属性,可以并行计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度体现已知化学反应属于目标化学反应的反应类别的概率,由于图形处理器具有并行处理数据的特性,这样,不同的目标化学反应相对于已知化学反应的子结构匹配度可以并行处理,相比于顺序执行而言,可以减少子结构匹配度计算所消耗的时长,提高计算子结构匹配度的计算效率。
基于以上一种化学反应搜索方法,本申请实施例还提供了一种化学反应搜索装置,参考图4所示,为本申请实施例提供的一种化学反应搜索装置的结构框图,所述装置包括:
属性获取单元110,用于获取目标化学反应的反应属性,以及多个已知化学反应的反应属性;
匹配度计算单元120,用于基于所述目标化学反应的反应属性和所述已知化学反应的反应属性,并行计算所述目标化学反应相对于所述已知化学反应的子结构匹配度,所述子结构匹配度体现所述已知化学反应属于所述目标化学反应的反应类别的概率。
可选的,所述目标化学反应的反应属性包括对所述目标化学反应的反应中心编码得到的第一化学反应指纹序列,所述目标化学反应的反应中心为所述目标化学反应中发生变化的反应物分子片段和对应的产物分子片段;所述已知化学反应的反应属性包括对所述已知化学反应的反应物和产物进行编码得到的第二化学反应指纹序列。
可选的,所述第一化学反应指纹序列和所述第二化学反应指纹序列为以下分子指纹的一种:分子接入系统指纹、摩根指纹、扩展连通性指纹。
可选的,所述子结构匹配度根据子结构搜索算法计算得到。
可选的,所述装置还包括:
搜索结果确定单元,用于从所述已知化学反应中确定出子结构匹配度大于预设值的化学反应作为搜索结果,所述搜索结果属于所述目标化学反应的反应类别。
本申请实施例提供了一种化学反应搜索装置,具体的,化学反应搜索装置可以应用于图形处理器,图形处理器可以获取目标化学反应的反应属性,以及多个已知化学反应的反应属性,这样基于目标化学反应的反应属性和已知化学反应的反应属性,可以并行计算目标化学反应相对于已知化学反应的子结构匹配度,子结构匹配度体现已知化学反应属于目标化学反应的反应类别的概率,由于图形处理器具有并行处理数据的特性,这样,不同的目标化学反应相对于已知化学反应的子结构匹配度可以并行处理,相比于顺序执行而言,可以减少子结构匹配度计算所消耗的时长,提高计算子结构匹配度的计算效率。
本申请实施例还提供了一种图形处理器,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行所述的化学反应搜索方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述图形处理器执行所述的化学反应搜索方法。
此外,本申请实施例还提供了一种化学反应搜索系统,包括至少一个所述的图形处理器。具体的,在单台计算机上扩展多个图形处理器,可以获得更高的运算速度。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种化学反应搜索方法,其特征在于,应用于图形处理器,所述方法包括:
获取目标化学反应的反应属性,以及多个已知化学反应的反应属性;
基于所述目标化学反应的反应属性和所述已知化学反应的反应属性,并行计算所述目标化学反应相对于所述已知化学反应的子结构匹配度,所述子结构匹配度体现所述已知化学反应属于所述目标化学反应的反应类别的概率。
2.根据权利要求1所述的方法,其特征在于,所述目标化学反应的反应属性包括对所述目标化学反应的反应中心编码得到的第一化学反应指纹序列,所述目标化学反应的反应中心为所述目标化学反应中发生变化的反应物分子片段和对应的产物分子片段;所述已知化学反应的反应属性包括对所述已知化学反应的反应物和产物进行编码得到的第二化学反应指纹序列。
3.根据权利要求2所述的方法,其特征在于,所述第一化学反应指纹序列和所述第二化学反应指纹序列为以下分子指纹的一种:分子接入系统指纹、摩根指纹、扩展连通性指纹。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述子结构匹配度根据子结构搜索算法计算得到。
5.根据权利要求1-3任意一项所述的方法,其特征在于,还包括:
从所述已知化学反应中确定出子结构匹配度大于预设值的化学反应作为搜索结果,所述搜索结果属于所述目标化学反应的反应类别。
6.一种化学反应搜索装置,其特征在于,应用于图形处理器,所述装置包括:
属性获取单元,用于获取目标化学反应的反应属性,以及多个已知化学反应的反应属性;
匹配度计算单元,用于基于所述目标化学反应的反应属性和所述已知化学反应的反应属性,并行计算所述目标化学反应相对于所述已知化学反应的子结构匹配度,所述子结构匹配度体现所述已知化学反应属于所述目标化学反应的反应类别的概率。
7.根据权利要求6所述的装置,其特征在于,所述目标化学反应的反应属性包括对所述目标化学反应的反应中心编码得到的第一化学反应指纹序列,所述目标化学反应的反应中心为所述目标化学反应中发生变化的反应物分子片段和对应的产物分子片段;所述已知化学反应的反应属性包括对所述已知化学反应的反应物和产物进行编码得到的第二化学反应指纹序列。
8.根据权利要求6所述的装置,其特征在于,还包括:
搜索结果确定单元,用于从所述已知化学反应中确定出子结构匹配度大于预设值的化学反应作为搜索结果,所述搜索结果属于所述目标化学反应的反应类别。
9.一种图形处理器,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-5任一项所述的化学反应搜索方法。
10.一种化学反应搜索系统,其特征在于,包括至少一个如权利要求9所述的图形处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010991588.7A CN112133379A (zh) | 2020-09-18 | 2020-09-18 | 一种化学反应搜索方法、装置及系统、图形处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010991588.7A CN112133379A (zh) | 2020-09-18 | 2020-09-18 | 一种化学反应搜索方法、装置及系统、图形处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112133379A true CN112133379A (zh) | 2020-12-25 |
Family
ID=73841211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010991588.7A Pending CN112133379A (zh) | 2020-09-18 | 2020-09-18 | 一种化学反应搜索方法、装置及系统、图形处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112133379A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913931A (zh) * | 2021-02-09 | 2022-08-16 | 重庆博腾制药科技股份有限公司 | 反应间相似度量化方法、系统及装置 |
CN115171807A (zh) * | 2022-09-07 | 2022-10-11 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
CN116226472A (zh) * | 2022-11-17 | 2023-06-06 | 上海药明康德新药开发有限公司 | 一种基于向量化的参考反应查询方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182094A1 (en) * | 2002-02-14 | 2003-09-25 | Broughton Howard Barff | Methods for classifying and searching chemical reactions |
CN106156405A (zh) * | 2016-06-24 | 2016-11-23 | 上海网化化工科技有限公司 | 基于化学反应数据库的有机合成路线设计方法 |
US20180253426A1 (en) * | 2017-03-03 | 2018-09-06 | Perkinelmer Informatics, Inc. | Systems and methods for searching and indexing documents comprising chemical information |
CN110277144A (zh) * | 2018-03-15 | 2019-09-24 | 国际商业机器公司 | 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构 |
US20200027528A1 (en) * | 2017-09-12 | 2020-01-23 | Massachusetts Institute Of Technology | Systems and methods for predicting chemical reactions |
WO2020054841A1 (ja) * | 2018-09-14 | 2020-03-19 | 富士フイルム株式会社 | 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置 |
US20200118651A1 (en) * | 2018-10-11 | 2020-04-16 | Merck Sharp & Dohme Corp. | Systems and methods for providing a specificity-based network analysis algorithm for searching and ranking therapeutic molecules |
-
2020
- 2020-09-18 CN CN202010991588.7A patent/CN112133379A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182094A1 (en) * | 2002-02-14 | 2003-09-25 | Broughton Howard Barff | Methods for classifying and searching chemical reactions |
CN106156405A (zh) * | 2016-06-24 | 2016-11-23 | 上海网化化工科技有限公司 | 基于化学反应数据库的有机合成路线设计方法 |
US20180253426A1 (en) * | 2017-03-03 | 2018-09-06 | Perkinelmer Informatics, Inc. | Systems and methods for searching and indexing documents comprising chemical information |
US20200027528A1 (en) * | 2017-09-12 | 2020-01-23 | Massachusetts Institute Of Technology | Systems and methods for predicting chemical reactions |
CN110277144A (zh) * | 2018-03-15 | 2019-09-24 | 国际商业机器公司 | 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构 |
WO2020054841A1 (ja) * | 2018-09-14 | 2020-03-19 | 富士フイルム株式会社 | 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置 |
US20200118651A1 (en) * | 2018-10-11 | 2020-04-16 | Merck Sharp & Dohme Corp. | Systems and methods for providing a specificity-based network analysis algorithm for searching and ranking therapeutic molecules |
Non-Patent Citations (2)
Title |
---|
袁小龙: "一种新的利用GPU加速分子指纹预筛及结构相似性计算的算法", 《第十二届全国计算(机)化学学术会议论文集》, pages 89 * |
贺巧鑫: "ReaxFF MD 模拟结果的化学反应网络自动构建及可视化", 《中国优秀硕士论文全文数据库 工程科技I辑》, no. 2019, pages 014 - 465 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913931A (zh) * | 2021-02-09 | 2022-08-16 | 重庆博腾制药科技股份有限公司 | 反应间相似度量化方法、系统及装置 |
CN115171807A (zh) * | 2022-09-07 | 2022-10-11 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
CN115171807B (zh) * | 2022-09-07 | 2022-12-06 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
CN116226472A (zh) * | 2022-11-17 | 2023-06-06 | 上海药明康德新药开发有限公司 | 一种基于向量化的参考反应查询方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gharaibeh et al. | Size matters: Space/time tradeoffs to improve gpgpu applications performance | |
US10381106B2 (en) | Efficient genomic read alignment in an in-memory database | |
Bader et al. | Designing scalable synthetic compact applications for benchmarking high productivity computing systems | |
CN112133379A (zh) | 一种化学反应搜索方法、装置及系统、图形处理器 | |
Cao et al. | Accelerated similarity searching and clustering of large compound sets by geometric embedding and locality sensitive hashing | |
Agapito et al. | Parallel and distributed association rule mining in life science: A novel parallel algorithm to mine genomics data | |
CN112259168B (zh) | 基因测序数据处理方法和基因测序数据处理装置 | |
CN112131244A (zh) | 一种化学反应搜索方法、装置及系统、图形处理器 | |
Sarkar et al. | An algorithm for DNA read alignment on quantum accelerators | |
Valle et al. | Optimization strategies for fast detection of positive selection on phylogenetic trees | |
US20230420070A1 (en) | Protein Structure Prediction | |
Wang et al. | Gcmapcrys: integrating graph attention network with predicted contact map for multi-stage protein crystallization propensity prediction | |
Carletti et al. | Graph-based representations for supporting genome data analysis and visualization: Opportunities and challenges | |
Folkestad et al. | Implementation of occupied and virtual Edmiston–Ruedenberg orbitals using Cholesky decomposed integrals | |
Liu et al. | Crbsp: prediction of circrna-rbp binding sites based on multimodal intermediate fusion | |
CN115881211B (zh) | 蛋白质序列比对方法、装置、计算机设备以及存储介质 | |
Procházka et al. | Backward Pattern Matching on Elastic-Degenerate Strings | |
Rabea et al. | A fast algorithm for constructing suffix arrays for DNA alphabets | |
Kaufman et al. | Using a parallel computer system for statistical resampling methods | |
WO2022146631A1 (en) | Protein structure prediction | |
Bai et al. | Optimal choice of word length when comparing two Markov sequences using a χ 2-statistic | |
CN114373509A (zh) | 一种基于GPU加速AutoDock Vina的方法 | |
Mrozek et al. | A large-scale and serverless computational approach for improving quality of NGS data supporting big multi-omics data analyses | |
CN112086136A (zh) | 一种数据处理方法、装置及系统、图形处理器 | |
Chen et al. | Non-coding rna identification with pseudo rna sequences and feature representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |