CN116226472A - 一种基于向量化的参考反应查询方法和系统 - Google Patents
一种基于向量化的参考反应查询方法和系统 Download PDFInfo
- Publication number
- CN116226472A CN116226472A CN202211441411.5A CN202211441411A CN116226472A CN 116226472 A CN116226472 A CN 116226472A CN 202211441411 A CN202211441411 A CN 202211441411A CN 116226472 A CN116226472 A CN 116226472A
- Authority
- CN
- China
- Prior art keywords
- reaction
- similarity
- cluster
- fingerprints
- reactions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 247
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims description 19
- 125000000524 functional group Chemical group 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000376 reactant Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009739 binding Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于向量化的参考反应查询方法和系统。该查询方法,包括以下步骤:根据每个反应对应一个总向量,通过聚类算法将数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量;计算query(查询)反应与每个簇类的聚类中心两两之间的相似度,得到与query反应相似度最大的聚类中心;计算query反应与相似度最大的聚类中心所在簇类的所有反应两两之间的相似度,得到与query反应最相似的N个反应,N>0;总向量包含AI指纹、反应传统指纹和产物分子传统指纹;S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3)。本发明同时具有较强的可解释性和准确性。
Description
技术领域
本发明涉及化学和人工智能交叉领域,具体涉及一种基于向量化的参考反应查询方法和系统。
背景技术
现有技术所提出的特征向量提取模块往往缺乏解释性,不符合领域专家认知,具体而言,以CN201410364896.1(题目是“数据搜索方法及系统”)为例,通常特征向量仅仅是基于有限的数据训练相应的模型对样本向量化得出的,由于数据收集的困难,容易存在缺失和偏差,并且结果缺乏解释性,领域专家难以干预、不可控。
现有参考反应查询系统所常用的技术方案,包括但不限于CN201410364896.1,存在比较突出的可解释性问题,并且特征向量提取模型的准确性也存在进一步提升的空间。根本原因是现有技术方案缺乏领域专家知识的补充,并且向量化模型也不能很好的拟合现有的数据,于是使用相应向量计算出的相似度既不能在广泛的数据上获得可理解、可解释的结果,也不能在有限的数据上获得非常精确的结果。
发明内容
为了提升相似度的可解释性和准确性,本发明将传统指纹和AI指纹相结合,提出了一种基于向量化的参考反应查询方法和系统。
第一方面,本发明提供一种基于向量化的参考反应查询方法,包括以下步骤:
根据每个反应对应一个总向量,通过聚类算法将数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量;计算query(查询)反应与每个所述簇类的聚类中心两两之间的相似度,得到与所述query反应相似度最大的聚类中心;计算query反应与所述相似度最大的聚类中心所在簇类的所有反应两两之间的相似度,得到与所述query反应最相似的N个反应,N>0;
所述总向量包含AI指纹、反应传统指纹和产物分子传统指纹;S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3);S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=(1~10):(1~10):1。
在一些实施方案中,w1:w2:w3=(1~5):(1~5):1。
在一些实施方案中,w1:w2:w3=2:3:1。
在一些实施方案中,w1:w2:w3=2:2:1。
在一些实施方案中,w1:w2:w3=3:3:1。
在一些实施方案中,所述聚类算法选用Kmeans。
在一些实施方案中,所述聚类算法包括以下步骤:
S1、每个所述总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算所述数据库中的其他各个数据点与各个所述种子聚类中心之间的距离,并将这些数据点分配给距离最近的所述种子聚类中心,与所述种子聚类中心一起形成一个簇类;平均所述簇类中所有数据点对应的所述总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复所述步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次(包含两个端点)。
进一步地,所述数据库含有百万级到千万级化学反应的数据量。进一步地,所述数据库含有百万级到千万级化学反应数据SMILES表达式的数据量。进一步地,通过聚类算法将数据库中的若干反应划分为500-15000个簇类,1000-10000个簇类,5000-9500个簇类,6000-9300个簇类,7000-9100个簇类,8000-9000个簇类,8100-8500个簇类,或8192个簇类。
在一些实施方案中,所述AI指纹为通过深度神经网络中的Bert模型生成的向量(更具体地是经过百万级到千万级的反应数据SMILES表达式训练后的Bert模型);所述反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码(即0-1编码按照相应的顺序组成的字段);所述产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码(即0-1编码按照相应的顺序组成的字段)。
进一步地,AI指纹、反应传统指纹和产物分子传统指纹的产生基础均是反应数据SMILES表达式。
进一步地,簇类划分和确定聚类中心的操作在数据库建立和/或启动的时候一次做完。
第二方面,本发明还提供一种基于向量化的参考反应查询系统,包括:
反应向量化模块,用于获得反应数据SMILES表达式的AI指纹、反应传统指纹和产物分子传统指纹;
反应相似度模块,用于通过公式S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3)获得两个化学反应之间的相似度;S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=(1~10):(1~10):1;
向量化搜索模块,用于在所述反应相似度模块基础上,采用聚类算法搜索数据库获得与query反应相似度最大的聚类中心所在簇类,再通过所述query反应分别与所述相似度最大的聚类中心所在簇类的所有反应两两之间的相似度中,搜索得到与所述query反应最相似的N个反应,N>0。
在一些实施方案中,w1:w2:w3=(1~5):(1~5):1。
在一些实施方案中,w1:w2:w3=2:3:1。
在一些实施方案中,w1:w2:w3=2:2:1。
在一些实施方案中,w1:w2:w3=3:3:1。
在一些实施方案中,所述聚类算法选用Kmeans。
在一些实施方案中,所述聚类算法包括以下步骤:
S1、每个总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算所述数据库中的其他各个数据点与各个所述种子聚类中心之间的距离,并将这些数据点分配给距离最近的所述种子聚类中心,与所述种子聚类中心一起形成一个簇类;平均所述簇类中所有数据点对应的所述总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复所述步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次;
所述总向量包含AI指纹、反应传统指纹和产物分子传统指纹;根据每个反应对应一个所述总向量,通过聚类算法将所述数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量。
进一步地,所述数据库含有百万级到千万级化学反应的数据量。进一步地,所述数据库含有百万级到千万级化学反应数据SMILES表达式的数据量。进一步地,通过聚类算法将数据库中的若干反应划分为500-15000个簇类,1000-10000个簇类,5000-9500个簇类,6000-9300个簇类,7000-9100个簇类,8000-9000个簇类,8100-8500个簇类,或8192个簇类。
在一些实施方案中,所述AI指纹为通过深度神经网络中的Bert模型生成的向量;所述反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码;所述产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码。
进一步地,AI指纹、反应传统指纹和产物分子传统指纹的产生基础均是反应数据SMILES表达式。
第三方面,本发明还提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如上所述的基于向量化的参考反应查询方法。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于向量化的参考反应查询方法的步骤。
本发明通过百万级到千万级的反应数据SMILES表达式训练Bert模型,从而使得Bert模型学习到化学反应的规律,如反应中心、反应环境、等价官能团等,使得训练后的Bert模型能将化学反应SMILES表达式转化成具有化学含义的向量,即生成AI指纹。之所以AI指纹具有化学含义,是由于通过经过训练的Bert模型产生的向量,对于相同的化合物、基团、化学键会生成相同的向量,比如C=C会对应一个固定的向量,当训练的数据足够多,比如达到百万级、千万级时,会几乎涵盖所有的化合物、基团、化学键,因此Bert输出的各个反应的向量就具有了化学含义。
在本发明中,种子聚类中心、聚类中心、query反应、数据库中的其他化学反应均通过本发明的基于向量化的参考反应查询方法或者系统生成各自对应的AI指纹、反应传统指纹和产物分子传统指纹。
本发明结合传统指纹和AI指纹,传统指纹提供了强大的解释性和可控性,而基于Bert模型的AI指纹提供了更加细粒度的区分度和可扩展性,比以往的特征向量提取模型更加准确,于是在提取特征向量和计算相似度时,可以兼顾可解释性和准确性。
本发明结合了传统指纹和深度神经网络。传统指纹通过枚举分子的官能团、反应中心获得相应的0-1编码,用传统指纹计算Jaccard相似度,衡量0-1编码向量的重合度,由此算出的相似度具有很强的可解释性,但是粒度比较粗,并且可扩展性较差。而AI指纹是由训练出的向量化模型Bert对反应向量化得到的,用AI指纹计算余弦相似度,衡量AI指纹的向量夹角大小,由此算出的相似度具有很强的扩展性,而且数值的大小可以非常精确地代表是否更相似,然而具有较差的可解释性。于是本发明在计算反应相似度时将传统指纹和AI指纹相结合,同时具有较强的可解释性和准确性。
此外,采用聚类算法的向量化搜索方式(或者向量化搜索模块)主要解决在近千万数据中快速搜索到topK(K个排名最前的数据)最相似物品的问题,在反应向量化后,向量化搜索就可以用到相应的加速技术,向量化搜索模块是基于聚类加速,提前将数据库中的数据聚成数千个簇类(数量可根据需要而定),然后query向量和每个簇类的中心点(聚类中心)计算相似度,找到最相似的那个之后,再与对应簇类中的其余反应计算相似度,这样分层的计算避免了query和整个数据库中反应计算相似度的情况,大大减少计算量从而实现加速。
在实际应用时,将数据库中的所有反应向量化后存储在向量化搜索模块中,在输入query反应时,在向量化搜索模块中调用反应相似度模块,结合聚类加速,快速的搜索出最相似的反应,并且可以给出准确、可解释的相似度分值,给下游的反应和路线的设计提供有效的数据支撑。
最后,产物分子传统指纹的加入,避免了仅仅反应传统指纹结合AI指纹在判断复杂化学反应时出现相似度异常偏高或异常偏低的情形,使得最终的相似度和化学家给出的相似度范围重合程度有明显上升,从44.96%上升到57.52%。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是反应向量化以及AI指纹相似度和传统指纹相似度的计算过程示意图。
图2是聚类算法过程示意图。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。但本发明不仅限于以下实施的案例。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例1、反应向量化和反应相似度计算
以图1为例进行反应向量化和反应相似度计算的说明。化学反应1的SMILES表达式为C=C>>CC,通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码,即反应传统指纹U1(0010……);通过枚举产物分子的官能团获得的相应的0-1编码,即产物分子传统指纹U2(0010……);通过经过近千万级的反应数据SMILES表达式训练后的Bert模型生成AI指纹U。化学反应2的SMILES表达式为C=O>>CC,通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码,即反应传统指纹V1(1000……);通过枚举产物分子的官能团获得的相应的0-1编码,即产物分子传统指纹V2(0010……);通过经过近千万级的反应数据SMILES表达式训练后的Bert模型生成AI指纹V。
化学反应1的U1和化学反应2的V1通过Jaccard距离计算得到反应传统指纹相似度(S反应);化学反应1的U2和化学反应2的V2过Jaccard距离计算得到产物分子相似度(S产物);化学反应1的U和化学反应2的V通过余弦距离计算得到AI指纹相似度(SAI)。按照公式S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3)计算化学反应1和化学反应2之间的相似度(S加权)。其中,w1、w2、w3分别取值3、3、1(或者w1:w2:w3=3:3:1),带入上述公式后变换为公式S加权=(3×SAI+3×S反应+1×S产物)/7。
实施例2、比较C=C>>CC与CC=CC>>CCCC的相似度
将实施例1中的化学反应1和化学反应2分别替换为C=C>>CC和CC=CC>>CCCC,计算得到这两个化学反应的AI指纹相似度为0.951,反应传统指纹相似度为0,产物分子相似度S产物为0.333,最终的相似度(S加权)就是(3×0.951+3×0+1×0.333)/(3+3+1)=0.455,即45.5%。
实施例3、AI指纹结合反应传统指纹与AI指纹结合反应传统指纹和产物分子传统指纹的比较
在化学家参与的测试中,我们发现,相似度异常偏高或者异常偏低时,往往是忽略了参与反应的分子的复杂程度,比如位阻。基于这个发现,我们试图在相似度计算的过程中加入参与反应的分子的复杂程度的相似程度比较,由于反应物较多,而90%以上的反应中产物只有一个分子,为了简化比较方式,避免笛卡尔积的多对多效应,我们使用产物分子传统指纹的相似度来描述参与反应的分子的复杂程度的相似程度,在加入产物分子传统指纹的相似度后,最终的相似度和化学家给出的相似度范围重合程度有明显上升,具体见如下试验:
从数据库中随机抽取685×2个化学反应,随机分为两两1组进行相似度计算,共得到685组。按照实施例1所述的方法计算出685组中两个化学反应之间的AI指纹相似度和反应传统指纹相似度,然后按照公式S’加权=(SAI+S反应)/2得到SAI和S反应共同确定的相似度(S’加权),S’加权与化学家给出的相似度比较,结果如表1所示,合理比例为44.96%。从表1可以看出,在化学家给出的相似度为[0%,50%)区间的组别(该组别含12组)中,S’加权合理的只有6组,偏高的6组,偏低的为0;其他列,如表1所示,不再赘述。
表1、685组数据的S’加权与化学家给出的相似度的符合程度
按照实施例1所述的方法及公式S加权=(3×SAI+3×S反应+1×S产物)/7计算出685组中两个化学反应之间的相似度(S加权,由SAI、S反应和S产物共同确定),S加权与化学家给出的相似度比较,结果如表2所示,合理比例为57.52%,高出44.96%,12.56%,合理比例获得了显著提升。
表2、685组数据的S加权与化学家给出的相似度的符合程度
实施例4、向量化搜索中的聚类加速算法
通过实施例1所述的向量化方法,我们获得了反应的向量,每一个反应对应到三种指纹(AI指纹、反应传统指纹和产物分子传统指纹)也就是三种向量,然后我们把三个向量拼成一个向量(即总向量),于是每一个反应对应到一个总向量,也就对应到高维空间中的一个数据点,再使用聚类算法把数据点划分后进行加速搜索。
简单来说,聚类算法过程如图2所示。把总向量作为高维空间中的数据点(简称点),于是就把数据库中的反应数据映射成高维空间中的多个数据点,再通过聚类算法,把相近的数据点放在一个簇类内,如图2中的虚线框。在查询query向量1相近向量(高维空间中最相近的数据点)的时候,就可以先和每个簇类的中心点2(即聚类中心)两两计算距离,找到最接近的簇类之后(如图2中的实线框),再和簇类内的数据点计算距离,从而大大减少计算量,提升总体速度。在本实施例中,具体速度提升为:从80小时一次查询降低到200毫秒一次查询。
在本实施例中,聚类算法选取的是Kmeans,聚成的8192个簇类,聚类算法过程如下:
先随机选取K(8192)个数据点作为种子聚类中心。然后计算每个数据点与各个种子聚类中心之间的距离,把每个数据点分配给距离它最近的种子聚类中心。种子聚类中心以及分配给它们的数据点就代表一个簇类(或者叫一个聚类)。一旦全部数据点都被分配了,每个簇类的聚类中心会根据簇类中现有的对象被重新计算,计算方式为依次平均簇类中所有数据点对应向量的各个维度,最终获得的向量就是聚类中心,但这只是这一轮的聚类中心。要获得最终的聚类中心,需要不断重复这个过程直到满足某个终止条件。具体而言就是将这一轮的聚类中心作为下一轮的种子聚类中心重复上述过程。
终止条件可以是以下任何一个:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,在本实施例中最大迭代次数为10次。
簇类划分和确定聚类中心(或者简称为聚类)的操作在数据库建立和/或启动的时候一次做完。
实施例5、基于向量化的参考反应查询方法
在本实施例中,该查询方法包括以下步骤:根据每个反应对应一个总向量,通过聚类算法将数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量;计算query(查询)反应与每个簇类的聚类中心两两之间的相似度,得到与query反应相似度最大的聚类中心;计算query反应与相似度最大的聚类中心所在簇类的所有反应两两之间的相似度,得到与query反应最相似的N个反应,N>0;
总向量包含AI指纹、反应传统指纹和产物分子传统指纹;S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3);S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=3:3:1。
聚类算法选用Kmeans,聚类算法包括以下步骤:
S1、每个总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算数据库中的其他各个数据点与各个种子聚类中心之间的距离,并将这些数据点分配给距离最近的种子聚类中心,与种子聚类中心一起形成一个簇类;平均簇类中所有数据点对应的总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次。
数据库含有百万级到千万级化学反应的数据量,以及百万级到千万级化学反应数据SMILES表达式的数据量。通过聚类算法将数据库中的若干反应划分为500-15000个簇类,1000-10000个簇类,5000-9500个簇类,6000-9300个簇类,7000-9100个簇类,8000-9000个簇类,8100-8500个簇类,或8192个簇类。
AI指纹为通过深度神经网络中的Bert模型生成的向量(更具体地是经过百万级到千万级的反应数据SMILES表达式训练后的Bert模型);反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码(即0-1编码按照相应的顺序组成的字段);产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码(即0-1编码按照相应的顺序组成的字段)。AI指纹、反应传统指纹和产物分子传统指纹的产生基础均是反应数据SMILES表达式。簇类划分和确定聚类中心的操作在数据库建立和/或启动的时候一次做完。
实施例6、基于向量化的参考反应查询系统
在本实施例中该查询系统包括:
反应向量化模块,用于获得反应数据SMILES表达式的AI指纹、反应传统指纹和产物分子传统指纹;
反应相似度模块,用于通过公式S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3)获得两个化学反应之间的相似度;S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=3:3:1;
向量化搜索模块,用于在反应相似度模块基础上,采用聚类算法搜索数据库获得与query反应相似度最大的聚类中心所在簇类,再通过query反应分别与相似度最大的聚类中心所在簇类的所有反应两两之间的相似度中,搜索得到与query反应最相似的N个反应,N>0。
聚类算法选用Kmeans,聚类算法包括以下步骤:
S1、每个总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算数据库中的其他各个数据点与各个种子聚类中心之间的距离,并将这些数据点分配给距离最近的种子聚类中心,与种子聚类中心一起形成一个簇类;平均簇类中所有数据点对应的总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次;
总向量包含AI指纹、反应传统指纹和产物分子传统指纹;根据每个反应对应一个总向量,通过聚类算法将数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量。
数据库含有百万级到千万级化学反应的数据量,以及百万级到千万级化学反应数据SMILES表达式的数据量。通过聚类算法将数据库中的若干反应划分为500-15000个簇类,1000-10000个簇类,5000-9500个簇类,6000-9300个簇类,7000-9100个簇类,8000-9000个簇类,8100-8500个簇类,或8192个簇类。AI指纹为通过深度神经网络中的Bert模型生成的向量;反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码;产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码。AI指纹、反应传统指纹和产物分子传统指纹的产生基础均是反应数据SMILES表达式。
实施例7、芯片
本实施例提供一种芯片,用于执行实施例1-5任一项中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行实施例5中的方法。
存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器可以是中央处理器(Central Processing Unit,CPU)等。或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令。处理器可以执行在存储器中存储的可执行指令,从而实现本文描述的各个过程。
可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM(Read-OnlyMemory,只读存储器)、PROM(ProgrammableROM,可编程只读存储器)、EPROM(ErasablePROM,可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(RandomAccessMemory,随机存取存储器),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM(StaticRAM,静态随机存取存储器)、DRAM(DynamicRAM,动态随机存取存储器)、SDRAM(SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
在本发明实施例中,处理器通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于执行实施例1-5任一项所提供的方法步骤。
实施例8、计算机可读存储介质
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现实施例1-5任一项的方法的步骤。
例如,机器可读存储介质可以包括但不限于各种已知和未知类型的非易失性存储器。
实施例9、计算机程序产品
本实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行实施例1-5任一项的方法。
本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本发明的范围。
在本发明实施例中,所公开的系统、装置和方法可以通过其它方式来实现。例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式。例如,多个单元或组件可以进行组合或者可以集成到另一个系统中。另外,各个单元之间的耦合可以是直接耦合或间接耦合。另外,在本发明实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。
应理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明的实施例的实施过程构成任何限定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中。因此,本发明的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本发明实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。
以上内容仅为本发明的具体实施方式,本发明的保护范围并不局限于此。本领域技术人员在本发明所公开的技术范围内可以进行变化或替换,这些变化或替换都应当在本发明的保护范围之内。
Claims (10)
1.一种基于向量化的参考反应查询方法,其特征在于,包括以下步骤:
根据每个反应对应一个总向量,通过聚类算法将数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量;计算query反应与每个所述簇类的聚类中心两两之间的相似度,得到与所述query反应相似度最大的聚类中心;计算query反应与所述相似度最大的聚类中心所在簇类的所有反应两两之间的相似度,得到与所述query反应最相似的N个反应,N>0;
所述总向量包含AI指纹、反应传统指纹和产物分子传统指纹;S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3);S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=(1~10):(1~10):1。
2.如权利要求1所述的基于向量化的参考反应查询方法,其特征在于,w1:w2:w3=3:3:1。
3.如权利要求1所述的基于向量化的参考反应查询方法,其特征在于,所述聚类算法包括以下步骤:
S1、每个所述总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算所述数据库中的其他各个数据点与各个所述种子聚类中心之间的距离,并将这些数据点分配给距离最近的所述种子聚类中心,与所述种子聚类中心一起形成一个簇类;平均所述簇类中所有数据点对应的所述总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复所述步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次。
4.如权利要求1所述的基于向量化的参考反应查询方法,其特征在于,所述AI指纹为通过深度神经网络中的Bert模型生成的向量;所述反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码;所述产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码。
5.一种基于向量化的参考反应查询系统,其特征在于,包括:
反应向量化模块,用于获得反应数据SMILES表达式的AI指纹、反应传统指纹和产物分子传统指纹;
反应相似度模块,用于通过公式S加权=(w1×SAI+w2×S反应+w3×S产物)/(w1+w2+w3)获得两个化学反应之间的相似度;S加权表示两个反应之间的相似度;SAI表示两个反应之间的AI指纹相似度,由对应的两个AI指纹之间通过余弦距离计算获得;S反应表示两个反应之间的反应传统指纹相似度,由对应的两个反应传统指纹之间通过Jaccard距离计算获得;S产物表示两个反应之间的产物分子传统指纹相似度,由对应的两个产物分子传统指纹之间通过Jaccard距离计算获得;w1、w2和w3分别表示AI指纹的权重、反应传统指纹的权重和产物分子传统指纹的权重,w1:w2:w3=(1~10):(1~10):1;
向量化搜索模块,用于在所述反应相似度模块基础上,采用聚类算法搜索数据库获得与query反应相似度最大的聚类中心所在簇类,再通过所述query反应分别与所述相似度最大的聚类中心所在簇类的所有反应两两之间的相似度中,搜索得到与所述query反应最相似的N个反应,N>0。
6.如权利要求5所述的基于向量化的参考反应查询系统,其特征在于,w1:w2:w3=3:3:1。
7.如权利要求1所述的基于向量化的参考反应查询系统,其特征在于,所述聚类算法包括以下步骤:
S1、每个总向量对应高维空间中的一个数据点,随机选取K个数据点作为种子聚类中心,K>1;
S2、计算所述数据库中的其他各个数据点与各个所述种子聚类中心之间的距离,并将这些数据点分配给距离最近的所述种子聚类中心,与所述种子聚类中心一起形成一个簇类;平均所述簇类中所有数据点对应的所述总向量的各个维度,获得的平均总向量就是这一轮的聚类中心,下一轮的种子聚类中心;
S3、重复所述步骤S2直到满足下述终止条件中的任何一个,完成簇类划分和确定聚类中心:
1)聚类中心的位置变化小于指定的阈值,所述指定的阈值为0.0001;
2)达到最大迭代次数,所述最大迭代次数为1~1000次;
所述总向量包含AI指纹、反应传统指纹和产物分子传统指纹;根据每个反应对应一个所述总向量,通过聚类算法将所述数据库中的若干反应划分为若干簇类,得到每个簇类的聚类中心的总向量。
8.如权利要求5所述的基于向量化的参考反应查询系统,其特征在于,所述AI指纹为通过深度神经网络中的Bert模型生成的向量;所述反应传统指纹为通过枚举反应物和产物分子的官能团、反应中心获得的相应的0-1编码;所述产物分子传统指纹为通过枚举产物分子的官能团获得的相应的0-1编码。
9.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如权利要求1至4中任一项所述的基于向量化的参考反应查询方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上权利要求1至4中任一项所述的基于向量化的参考反应查询方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211441411.5A CN116226472B (zh) | 2022-11-17 | 2022-11-17 | 一种基于向量化的参考反应查询方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211441411.5A CN116226472B (zh) | 2022-11-17 | 2022-11-17 | 一种基于向量化的参考反应查询方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226472A true CN116226472A (zh) | 2023-06-06 |
CN116226472B CN116226472B (zh) | 2024-06-21 |
Family
ID=86588017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211441411.5A Active CN116226472B (zh) | 2022-11-17 | 2022-11-17 | 一种基于向量化的参考反应查询方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226472B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514359A (zh) * | 2003-07-16 | 2004-07-21 | 中国科学院上海有机化学研究所 | 化学反应的分类和知识层次模型的建立及其可视化方法 |
US20160321265A1 (en) * | 2014-06-30 | 2016-11-03 | Rakuten, Inc. | Similarity calculation system, method of calculating similarity, and program |
US20180011899A1 (en) * | 2016-07-05 | 2018-01-11 | Zymergen, Inc. | Complex chemical substructure search query building and execution |
CN111951905A (zh) * | 2020-08-14 | 2020-11-17 | 中国科学技术大学 | 一种化学反应搜索方法及系统 |
CN112133379A (zh) * | 2020-09-18 | 2020-12-25 | 武汉智化科技有限公司 | 一种化学反应搜索方法、装置及系统、图形处理器 |
CN112131244A (zh) * | 2020-09-18 | 2020-12-25 | 武汉智化科技有限公司 | 一种化学反应搜索方法、装置及系统、图形处理器 |
CN114913931A (zh) * | 2021-02-09 | 2022-08-16 | 重庆博腾制药科技股份有限公司 | 反应间相似度量化方法、系统及装置 |
CN115240785A (zh) * | 2022-07-21 | 2022-10-25 | 苏州沃时数字科技有限公司 | 化学反应预测方法、系统、装置及存储介质 |
CN115309872A (zh) * | 2022-10-13 | 2022-11-08 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
-
2022
- 2022-11-17 CN CN202211441411.5A patent/CN116226472B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514359A (zh) * | 2003-07-16 | 2004-07-21 | 中国科学院上海有机化学研究所 | 化学反应的分类和知识层次模型的建立及其可视化方法 |
US20160321265A1 (en) * | 2014-06-30 | 2016-11-03 | Rakuten, Inc. | Similarity calculation system, method of calculating similarity, and program |
US20180011899A1 (en) * | 2016-07-05 | 2018-01-11 | Zymergen, Inc. | Complex chemical substructure search query building and execution |
CN111951905A (zh) * | 2020-08-14 | 2020-11-17 | 中国科学技术大学 | 一种化学反应搜索方法及系统 |
CN112133379A (zh) * | 2020-09-18 | 2020-12-25 | 武汉智化科技有限公司 | 一种化学反应搜索方法、装置及系统、图形处理器 |
CN112131244A (zh) * | 2020-09-18 | 2020-12-25 | 武汉智化科技有限公司 | 一种化学反应搜索方法、装置及系统、图形处理器 |
CN114913931A (zh) * | 2021-02-09 | 2022-08-16 | 重庆博腾制药科技股份有限公司 | 反应间相似度量化方法、系统及装置 |
CN115240785A (zh) * | 2022-07-21 | 2022-10-25 | 苏州沃时数字科技有限公司 | 化学反应预测方法、系统、装置及存储介质 |
CN115309872A (zh) * | 2022-10-13 | 2022-11-08 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116226472B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Strieth-Kalthoff et al. | Machine learning the ropes: principles, applications and directions in synthetic chemistry | |
Bar-Joseph et al. | A new approach to analyzing gene expression time series data | |
Bar-Joseph et al. | Continuous representations of time-series gene expression data | |
Grzegorczyk et al. | Non-stationary continuous dynamic Bayesian networks | |
Launay et al. | Exact sampling of determinantal point processes without eigendecomposition | |
Mavroudi et al. | Gene expression data analysis with a dynamically extended self-organized map that exploits class information | |
Li et al. | Random knn | |
CN116226472B (zh) | 一种基于向量化的参考反应查询方法和系统 | |
Lohrmann et al. | Nonspecificity, strife and total uncertainty in supervised feature selection | |
Bhadra et al. | Unsupervised feature selection using an integrated strategy of hierarchical clustering with singular value decomposition: an integrative biomarker discovery method with application to acute myeloid leukemia | |
Fukuyama | ADAPTIVE GPCA | |
Le et al. | A novel fuzzy clustering method based on GA, PSO and Subtractive Clustering | |
Tongman et al. | Metabolic pathway synthesis based on predicting compound transformable pairs by using neural classifiers with imbalanced data handling | |
Pavan et al. | An automatic clustering technique for optimal clusters | |
Goretzko | Regularized exploratory factor analysis as an alternative to factor rotation. | |
Palanisamy et al. | A novel approach to select significant genes of leukemia cancer data using K-Means clustering | |
Mishra et al. | Insilco qsar modeling and drug development process | |
Hsieh et al. | Molecular descriptors selection and machine learning approaches in protein-ligand binding affinity with applications to molecular docking | |
Pudimat et al. | Feature based representation and detection of transcription factor binding sites | |
Mei et al. | Classification and its applications for drug-target interaction identification | |
Kang | New statistical learning methods for chemical toxicity data analysis | |
Meshram et al. | GENE DATA CLUSTERING USING K-MEANS ALGORITHM | |
Li | Random KNN modeling and variable selection for high dimensional data | |
Kaysar et al. | Chapman-Kolmogorov Relation Based Median String Algorithm for DNA Consensus Classification | |
Peng et al. | Weighted-NMF based clustering method for the identification of cancer subtypes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |