CN1514359A - 化学反应的分类和知识层次模型的建立及其可视化方法 - Google Patents

化学反应的分类和知识层次模型的建立及其可视化方法 Download PDF

Info

Publication number
CN1514359A
CN1514359A CNA03141642XA CN03141642A CN1514359A CN 1514359 A CN1514359 A CN 1514359A CN A03141642X A CNA03141642X A CN A03141642XA CN 03141642 A CN03141642 A CN 03141642A CN 1514359 A CN1514359 A CN 1514359A
Authority
CN
China
Prior art keywords
reaction
chemical reaction
chemical
classification
general formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA03141642XA
Other languages
English (en)
Other versions
CN1260650C (zh
Inventor
姚建华
朱倩
李丰
袁身刚
陈海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Organic Chemistry of CAS
Original Assignee
Shanghai Institute of Organic Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Organic Chemistry of CAS filed Critical Shanghai Institute of Organic Chemistry of CAS
Priority to CN 03141642 priority Critical patent/CN1260650C/zh
Publication of CN1514359A publication Critical patent/CN1514359A/zh
Application granted granted Critical
Publication of CN1260650C publication Critical patent/CN1260650C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种新的化学反应的分类、表示同类反应的通式反应的获取、反应知识层次模型的建立及其可视化方法。该方法分别应用两套不同的反应一级描述符和反应二级描述符对反应进行描述,然后用聚类分析方法将化学反应进行两次分类。应用本发明提供的化学反应处理方法可以将第二次分类得到的每一类化学反应的核心结构和取代基找出来构成描述这一类反应的通式反应,并将通式反应中的反应知识组织在层次模型中。本发明还提供了同时或者分别将反应描述符、反应描述符矢量、化学反应超空间中化学反应、分类后的同一类反应中的每个化学反应、用通式反应表示的同类化学反应的可视化方法,即将它们在计算机上用图示方式表示。

Description

化学反应的分类和知识层次模型的建立及其可视化方法
技术领域
本发明涉及化学反应的分类、表示同类反应的通式反应的获取、反应知识层次模型的建立及其可视化方法,即对化学反应进行分类的方法,对分类后得到的每一类化学反应推演出它们的通式反应的方法和表述反应知识的层次模型的建立方法,涉及为实现这些技术所需的特殊的化学反应处理方法和可视化方法。
技术背景
已有100多年历史的化学所积累的反应数据量已超了1000多万个,并大多由反应数据库进行管理。这些数据库都配备了基于结构检索的查找反应信息的方法:子结构检索,反应检索,相似性检索,精确检索和反应位置检索等。但是,化学家还是感到仍难于充分利用反应数据库来解决合成问题。因为解决合成问题至今仍是一个主要依赖于经验甚至凭直觉的过程,这些传统的基于结构的计算机检索方法与合成化学家解决问题的方法相去甚远。前者往往只会作刻板查找,要么有结果,要么没有;后者往往采用渐进方式。数据库很难配合合成化学家的跳跃式地思考和迂回侧击解决问题的方法,这就使得反应数据库难于得到充分的利用。为了解决这一问题本发明提出了一种将化学反应进行分类并转换成通式反应和建立描述反应知识的层次模型及其可视化的技术。
对化学反应进行分类的各种不同方法早就有之,如按反应机理或反应发现人的名字来区分与命名不同的反应。但是,这些分类方法往往不适合计算机系统。本发明采用了根据反应中心的模式进行分类的方法。所谓反应中心是指在反应过程所有发生键断裂或/和生成的原子。反应中心的模式,简称反应模式是指描述反应中心所构成的一种反应程式,它表述了反应物向产物转化时化学结构的变化。把具有相同反应模式的所有反应称为同类反应,因此一个同类反应往往可包含许多特定反应。为了简明扼要地表述同类反应中的许多反应,化学家常采用一种如下所示的称为通式反应的紧凑反应表示方式:
但是,按反应模式对化学反应进行分类不是显而易见的,特别当需要处理的反应数量很大时。本发明提供了解决这一问题的方法。
发明内容
本发明的目的是提供一种化学反应的分类、通式反应的获取、反应知识层次模型的建立及其可视化方法。
本发明的化学反应的分类方法,是根据化学反应中反应物和生成物化学结构的变化对反应进行两次分类、对分类后得到的每一类化学反应推演出它们的通式反应和以层次模型表述的反应知识及其可视化方法。化学反应的分类方法由:(1)反应描述符的产生;(2)化学反应超空间的构成;(3)化学反应的二级分类;(4)通式反应和以层次模型表述的反应知识的获取以及可视化等四个主要步骤组成,流程如图1所示。
换言之,本发明的方法是一种化学反应的分类、通式反应和以层次模型表述的反应知识的获取及其可视化方法,是将化学反应中反应物和生成物的结构读入计算机,通过软件产生化学反应描述符,由化学反应描述符向量构成可度量的化学反应超空间,直接在化学反应超空间中或者将化学反应超空间转换到一个较低维的空间中对化学反应进行两次分类,选择一类化学反应后计算机自动推演出这一类化学反应的通式反应和以层次模型表述的反应知识,同时或者分别进行化学反应描述符矢量的可视化、化学反应超空间中化学反应可视化、分类后的同类化学反应中所有化学反应的可视化或用通式反应表示的同类化学反应的可视化。
本发明的方法包括一种根据化学反应中反应物和生成物的结构对它们进行分类的方法、一种基于每一类化学反应中的反应物和生成物的结构推演出它们通式反应的方法、一种以通式反应表述的反应知识层次模型的建立方法、一种为实现上述技术所需的特殊的化学反应处理方法、为实现上述技术的每一步提供可视化方法。
本发明提供的根据化学反应中反应物和生成物的结构对它们进行分类的方法中的结构是指描述反应物和生成物中原子间拓扑连接关系的二维化学结构式以及它们存储在计算机中的描述了这种原子间拓扑连接关系的文件。将化学反应中反应物和生成物的结构图输入到计算机中可采用专用的化学反应输入软件,如美国MDL公司的ISIS/Draw(可在http://www.mdli.com站点免费下载),并以MDL公司的MOL格式存储。
本发明提供的对化学反应进行两次分类的方法基本相同,但采用的反应描述符不同。第一次分类时,不同的反应都采用同一组普适性好的称作反应一级描述符的反应描述符进行分类,然后在第一次分类结果的基础上,得到每一类反应的公共结构特征作为第二次分类的结构描述符,再进行更精细的分类得到有相同反应核心的最终精细分类——通式反应。
本发明提供的第一次分类方法为了能更强调反应中心直接邻近环境对反应的影响,尽可能的降低远程环境对反应的影响,仅取以反应产物的反应中心为基础向外扩展三层的拓扑结构来作为被描述的对象。根据这一原则图2所示Michael加成反应的一产物1被先截去外层的原子和键变成图2中所示的2以后再用于产生反应一级描述符。
本发明提供的根据化学反应中反应物和生成物的结构对它们进行分类的方法中的反应一级描述符的产生是应用所定义的139个一级描述符逐个在反应中心以及反应中心以外三层结构内进行查找,即可得到每个描述符在其中的出现次数。由这些出现次数组成的向量构成了一个描述化学反应139个特征的139维向量,称化学反应一级描述符向量。这139个描述符即构成了第一次分类的化学反应超空间,或者说每个由这个向量所描述的反应就变成了在这个超空间中的一个点。它们在这超空间中距离的远近反映了它们之间的相似程度,据此可方便地对它们进行分类。计算反应一级描述符参数的方法已被本专利发明人程序化了。运行这个由本专利发明人自主开发的ReactAnalys软件就可方便地完成化学反应一级描述符的产生。本发明提供的方法中使用的全部(139个)反应一级描述符列于表1中。
表1  本发明中使用的139个一级反应结构描述符
 1.NA(A)A2.4M RING3.ON_C_C4.A__ARA__A5.CTC6.7M RING7.Si8.3M RING9.NC(O)O10.CR2C_RA_RA11.CQ(C)(C)A12.S Heterocycle13.NC(C)N14.ARA__ARA15.CTN16.C2CN17.O Heterocycle18.SnotAromAAromA19.ARA__N20.A__O__A21.N2O22.ARA__S23.CAromN24.QS25.OAAO26.A__NRA27.C2C(A)A28.NAN29.C2N30.NAAN31.NAAAN32.SA(A)A33.CN(C)C34.X__ARA35.S36.OAAAO37.OC(N)C38.QCH339.QN40.NAAO41.5M RING42.NAAAO43.C2C44.8M RING45.QO  47.QA_Q_Q48.XA_A_A49.NCO50.AA_A_A_A51.OnotAromAAromA52.NAO53.N Heterocycle54.AN_A_A55.QQ56.6M RING57.AROMBOND58.X59.NnotAromAAromA60.O2A61.Heterocycle62.ARA__O63.AnotAromAAromAnotAromA64.AQ(A)A65.O66.OC(C)C67.N2CN68.N69.CO70.CN71.RING72.GroupVB,VIB,VIIB73.GroupIVA,VA,VIA Periods4-674.Actinide75.GroupIIIB,IVB76.Lanthanide77.O2C_O78.CSi(C)C79.O2S_C_C_O80.O2C_C_N81.O2C_C_C_C_C2O82.O2C_C_S2O83.O2S_C2C84.O_N2C85.O2C_C_C_O86.NTC_C87.O2S_C_C88.C_C_O89.NTC_C_C_O90.S_C_N91.O_C_C_S  93.O2N_C_C_O94.CC(C)C95.S_C_C_C_C96.S_C2C97.O_C2C98.O2N_O99.C_C_C_C100.C_C_C_C_O101.C_C_C_C2O102.O2S2OC_C_C103.C_C_C_N104.C_C_C2O105.C_C_C_O106.NTC_C_C107.O2C_C_C2O108.S2C_C109.N2C_C_C110.C_C_C111.N_C_C_C_S112.N_N2C113.CC(C)S114.N_C_C_C_C_C115.N2N2N116.O2S2OC_C_C_C2O117.S_C_C_C118.N_C_C_C_C119.SiC(C)C120.N_C2O121.C_C_C_C_C122.O2C_C_C_C_C123.O2C_C(C)C124.NTC_C_C_C_C125.NC(C)C126.C_C127.C_N_C128.AromHeterocycle129.AromSulfurHeterocycle130.AromOxygenHeterocycle131.AromNitrogenHeterocycle132.O2S2O133.O2S2OC_C_O134.P2O135.C2C_C2O136.C2C_CTN137.S_C_C_C_S
 46.ARA(RA)RA  92.C_C2O  138.C2S139.NTC_C_C_C_C2O
1.A:表示除氢以外的任何原子,Q:表示除碳和氢以外的任何原子,R:除芳香环以外的任何环键,Not:表示没有或不是,X:表示卤素,RING:表示任何环,AROMBOND:表示芳香键,M:表示任何原子,例如,3M RING表示由三个任何原子组成的环;
2.“__”表示链上的键,“_”表示单键,“2”表示双键,“T”表示叁键,“Arom”表示芳香键,“notArom”表示非芳香环键,如果表示两个原子的元素符号间省略了键的标记,则表示可为任何键,例如,“CC”表示两个可以任何键连接的碳原子;
3.Group:表示元素周期表中的族,Period:表示元素周期表中的周期,Heterocycle:表示含杂原子的非芳香环,例如,S Heterocycle表示含硫原子的非芳香杂环,AromHeterocycle:表示含杂原子的芳香环,AromSulfurHeterocycle:表示含硫原子的芳香环,AromOxygenHeterocycle:表示含氧原子的芳香环,AromNitrogenHeterocycle:表示含氮原子的芳香环;
4.GroupVB,VIB,VIIB:表示元素周期表中的第5,6或7副族中的元素,GroupIVA,VA,VIA Periods4-6:表示既是元素周期表中的第4,5或6主族中又是第4-6周期中的元素,GroupIIIB,IVB:表示元素周期表中的第3,4副族中的元素,Actinide:表示锕系元素,Lanthanide:表示镧系元素。
本发明提供的第二次分类方法中,反应结构描述符的选择是要解决的首要问题。与反应一级描述符不同,二级描述符的选取原则是要尽可能多地考虑被分类反应的差异性,因此选择第一次分类结果中得到的各类反应产物间的最大公共子结构作为反应二级描述符。为此,在第一次分类结果的基础上,从被分在同一类的反应产物可得到一组它们两两之间的最大公共子结构。由于这些最大公共子结构中有很多是无用和多余的(例如,与反应中心同构的最大公共子结构(片段过小)、片段过大(出现次数少,普适性小)、重复片段等等),将它们直接作为结构描述符时,必然会影响到第二次分类的结果。因此,在使用这些最大公共子结构之前,首先对它们进行过滤。筛选出一组无冗余的、真正意义上具有描述能力的最大公共子结构作为反应二级描述符。按本发明提供的分类方法,用反应结构二级描述符对反应进行第二次分类,即可得到反应精细分类。计算反应二级描述符参数的方法已被本专利发明人程序化了。运行这个由本专利发明人自主开发的ReactAnalys软件就可方便地完成化学反应二级描述符的产生。
本发明还同时提供了将化学反应描述符、化学反应描述符矢量和化学反应中反应物和生成物可视化方法。本发明提供的将反应描述符可视化的方法是首先将反应描述符的参数转换到[-1,1]区间内,然后根据预先设定的比色尺由[-1,1]区间内的数值计算出对应的(红、绿、蓝)三原色分量,将它们混合即得到反应描述符所对应的可视化颜色。由于反应描述符的数值不一定正好在[-1,1]之间,为此需先找到反应描述符的最大值Vmax和最小值Vmin,分别对应比色尺中的1和-1。对一个数值为x的反应描述符,根据公式: f ( x ) = x - V min V max - V min × 2 - 1 ,
即可将它转换成[-1,1]区间内的数值。通过设定三原色在[-1,1]区间内的变化曲线就设定了比色尺,设定的变化曲线如图3所示。此时,给定一个[-1,1]之间的值,可以从图3取得对应的三原色分量,将这些分量组合在一起,可以得到一种颜色。这样,就可将[-1,1]之间的数值映射到了一个颜色空间中。这一颜色空间与[-1,1]区间内的数值对应关系如图4所示。由此可方便得到反应描述符所对应的颜色,实现了反应描述符的可视化。
本发明提供的化学反应描述符矢量的可视化方法是将一个反应的所有反应描述符所对应的颜色组成一条色带,这一色带即是这个化学反应对应的反应描述符矢量的可视化表示。
本发明提供的同类化学反应的可视化方法是将同一类化学反应中每个化学反应的描述符矢量色带拼接成一个有色方块(矩阵),该有色方块即是同类化学反应中所有化学反应的一种可视化表示。本发明提供的将反应描述符、反应描述符矢量和同类化学反应中所有化学反应的可视化方法已集成在一个本专利发明人自主开发的ReactView软件中。运行这个软件就可方便地完成以反应描述符代表的同类化学反应中所有化学反应的可视化。
本发明提供的根据化学反应中反应物和生成物化学结构的变化对反应进行分类的方法中的化学反应超空间的构成是将本发明中描述的方法所产生的反应一级描述符或反应二级描述符向量构成一个度量空间。这个由反应描述符向量构成的度量空间定义了本发明中的化学反应超空间。通常情况下,这是一个维数很高的空间,因此称超空间。由于维数高带来的信息并不一定多,因此为了而后处理的有效,常常须采用某种降维方法抽提原始描述符向量中所包含的特征组成一个维数较低的特征向量空间,简称特征空间。原始的化学反应超空间也称为真实化学反应超空间。本发明中所述的降维方法可以是主成分分析法(PCA)、偏最小二乘法(PLS)、演化算法等任何降维方法。
本发明提供的根据化学反应中反应物和生成物化学结构的变化对反应进行的分类是在本发明所描述的化学反应超空间或特征空间中应用聚类分析方法将化学反应进行分类。本发明中所述的聚类分析方法可以是分级聚类方法(Hierarchical Clustering)、最小生成树法、SIMCA法、KNN、K-均值法(K-meansClustering)、自组织映照(SOM)等。适用于这一目的的常用计算机程序有美国斯坦福大学的Cluster和Whitehead/MIT Institute Center for Genome Research的GeneCluser。
最常用的是将分类结果以树状图(dendrogram)分层次地显示。适用于这一目的的常用计算机程序有美国斯坦福大学的TreeView和Whitehead/MIT InstituteCenter for Genome Research的GeneCluser。
本发明提供的根据每一类化学反应中反应物和生成物化学结构通过两次分类后得到它们通式反应和以层次模型表述的反应知识的方法是把按本发明描述的方法分在同一类反应中的所有反应生成物的最大公共子结构找出来视作这一类化学反应的通式反应的核心结构,原反应生成物中扣除最大公共子结构后的结构片断在描述同类反应时视作取代基。
本发明提供的根据每一类化学反应中反应物和生成物化学结构推演出它们通式反应的方法中的可视化方法,是把按本发明描述的方法得到的通式反应与它们的化学反应分类结果组合在一起在计算机上用图示方式表示。
本发明提供的为实现上述技术所需的特殊的化学反应处理方法是指化学反应在计算机上的读入、存储、输出和获取最大公共子结构的方法。
本发明所描述的特殊的化学反应处理方法中获取最大公共子结构的方法采用的是图论中的团检测算法。
本发明提供的根据每一类化学反应中反应物和生成物化学结构推演出它们通式反应的核心结构和取代基的方法已集成在本专利发明人自主开发的ReactAnalys软件中,只要运行这个软件,选定一类化学反应后,依次按不同的功能按钮即可分别得到这类化学反应的一级描述符、二级描述符、对应的通式反应的核心结构和取代基。
采用本技术先将反应分类并转换成通式反应后再接通式反应将反应知识以层次模型建立知识库,这一方面将可大大提高对反应数据库浏览和检索的效率,更重要的是将使基于传统结构检索的对反应数据利用方法得到彻底的改观,实现由已知反应解决未知化合物的合成路线设计的难题。
本发明提供了对大量化学反应进行自动化分类、得到同一类反应的通式反应和建立反应知识层次模型的技术以及为实现这种技术所需的特殊的化学反应处理方法和可视化方法。
表2表示了一个应用本发明对13个Aldol反应进行分类的举例。表2中左边第一列是所有的反应,它们的反应中心用红色表示。按反应模式可将它们分成四类,这四类同类反应所对应的反应模式分别如表中右边列中所示。
如果将所有已知反应组成一个同类反应知识库,并建立相应的检索系统就可用于对数据库中还未收录的新化合物进行反合成分析自动得到其合成路线。
表2应用本发明对Aldol反应的分类
Figure A0314164200121
附图说明:
图1是本发明中化学反应分类方法的流程图。
图2是Michael加成反应中化合物1获取结构描述符的三层拓扑结构2(化合物中的双斜线表示反应中心的化学键,单斜线表示发生变化了的键,如该键从双键变为单键,从三键变为双键等等)。
图3是本发明中反应描述符数值与颜色的对应图。
图4是根据图3所定义的方法计算得到的[-1,1]区间的数值与对应的色带。
图5 272个Michael加成反应经本发明方法处理后得到的第一次聚类结果。
图6 272个Michael加成反应经本发明方法处理后得到的第二次聚类结果。
图7 Sharpless环氧化反应经本发明方法处理后得到的第一次聚类结果。
图8 Sharpless环氧化反应经本发明方法处理后得到的第二次聚类结果。
图9 采用本发明方法得到的以层次模型表述的Sharpless反应知识(限于篇幅图中仅画出部分Sharpless反应)。
图10采用本发明方法得到的以层次模型表述的Claisen酯缩合反应知识(限于篇幅图中仅画出部分Claisen酯缩合反应)。
其中:
图1是本发明提供的根据化学反应中反应物和生成物化学结构的变化对它们进行分类、获取它们的核心结构和取代基、同类反应的通式表示的流程图。这个方法由:(1)反应描述符的产生;(2)化学反应超空间的构成;(3)化学反应的二级分类;(4)通式反应和以层次模型表述的反应知识的获取以及可视化等四个主要步骤组成;
图4是将绿:RGB(0,255,0)、红:RGB(255,0,0)和蓝:RGB(0,0,255)三原色排布在[-1,1]区间的方法。由图中定义的三条颜色变化曲线,给定一个[-1,1]之间的值,就可取得对应的三原色分量,将这些分量组合在一起,即可得到一种颜色。这样,就可将[-1,1]区间的数值映射到了一个颜色空间中,得到与结构描述符相对应的颜色;
图4根据图3所定义的方法计算得到的[-1,1]区间的数值与对应的色带;
图5用本专利发明人自主开发的ReactView程序得到的Michael类反应的第一次聚类分析的结果。图5中所示的树状图表示了所有Michael类反应的聚类情况。
图5中所示的彩色带的每一行表示一个反应描述符,每一列表示一个化学反应,化学反应这一列中的彩色的不同表示了对应反应描述符的不同值。图5中所示的数字为反应描述符的编号。图5中所示的彩色带中的白框表示了本实施例选定的Michael类反应在聚类分析中的位置。图5中所示的数字和字母表示了对应化学反应的文件名;
图6、图7、图8是分别用本专利发明人自主开发的ReactView程序得到的Michael类反应的第二次聚类分析的结果、Sharpless环氧化反应的第一次聚类分析的结果、Sharpless环氧化反应的第二次聚类分析的结果。
图9是采用本发明方法得到的以层次模型表述的Sharpless同类反应知识,它由特定反应层、基核层和基型层三个层次组成。除特定反应层外,其余两层都包含了特定反应的全部信息--反应中心和对应取代基。
图10是采用本发明方法得到的以层次模型表述的Claisen酯缩合同类反应知识,它由特定反应层、基核层和基型层三个层次组成。除特定反应层外,其余两层都包含了特定反应的全部信息--反应中心和对应取代基。
具体实施方式
通过下述实施例将有助于理解本发明,但并不限制本发明的内容。
             实施例1:Michael加成反应的分类
首先从MDL公司包含75万个反应的反应数据集中随机选取了2615个反应作为研究用的反应数据子集,并建成一个反应数据库。以下面所示的反应模式为提问反应到这数据库中进行检索,得到272个Michael加成反应。
用本发明定义的139个反应结构一级描述符逐个在272个Michael加成反应中进行查找,即可得到每个描述符在每个反应中的出现次数。由这些出现次数组成的向量即为每个Michael加成反应在超空间中的坐标向量。由此得到一个272×139的矩阵。对生成的反应描述符矩阵进行一次扫描,剔除掉数值全为零和全部相同的描述符后,得到的有意义的描述符仅有110维,即最终得到了一个272×110的描述符矩阵。这110个描述符即构成了第一次分类的化学反应超空间,或者说每个由这个向量所描述的反应就变成了在这个超空间中的一个点。
再进一步用主成分分析法(PCA)进行特征抽提。在这一步主成分数的确定十分重要,本发明通常可采用比较简单的方法,选取当累积百分数已超过80%时的主成分数。在此实施例中,选取了前29个主成分,它们的累积百分数为80.942%。第一次分类所用的程序为本专利发明人自主开发的ReactAnalys。
本实施例中的272个Michael加成反应经上述方法处理后得到的第一次聚类结果用本专利发明人自主开发的ReactView显示如图5所示。图5中顶部的树状图表示了所有这些化学反应第一次的聚类情况,左边刻度尺表示了被聚为一类反应的相似度。相似度在0-1之间变化,越接近1表示越相似,越接近0表示越不相似。图5中部的彩色带的每一行表示一个构成特征空间的主成分,每一列表示一个Michael加成反应。第i行和第j列方块的颜色表示了第j个反应第i个主成分上的坐标值。彩色带中的白框表示了本实施例选定的一组被分为同一类的Michael加成反应,它们所对应的产物反应结构就显示在下面。由图5顶部的树状图可见化学反应的分类是逐级的。最低层一类中的化学反应它们之间最相似。从图5的聚类结果看,第一级分类的目的已基本达到,反应模式邻近环境相似的反应已大致被聚在了一起。但不足的是从反应聚类树状图中可以看到类与类之间的连线还过于复杂,说明不同类别间的反应之间还不能完全区分,这就需要进行第二次分类。
在第一次分类结果的基础上,对被分在同一类的反应产物寻找它们两两之间的最大公共子结构,得到了一组271个最大公共子结构。得到的这些最大公共子结构中有很多是无用和多余的,例如,与反应中心同构的最大公共子结构(片段过小),出现次过少而普适性小或重复片段等等。将它们直接作为结构描述符时,必然会使第二次分类的结果变坏。因此,首先对它们进行了过滤,筛选出一组共19个无冗余的、真正意义上具有描述能力的最大公共子结构作为反应结构二级描述符。按前述第一次分类同样的方法,用这19个反应二级描述符代替一级描述符进行第二次分类,即得到了一个272×19的反应二级描述符矩阵。这19个描述符即构成了第二次分类的化学反应超空间。再进一步用主成分分析法(PCA)进行特征抽提,选取了前15个主成分,它们的累积百分数为91.232%。在此特征空间中这些反应得到了较理想的分类。第二次分类所用的程序仍为自己开发的ReactAnalys。
本实施例中的272个Michael加成反应经上述方法处理后得到的第二次聚类结果用本专利发明人自主开发的ReactView显示如图6所示。图6中顶部的树状图表示了所有这些化学反应第二次的聚类情况,左边刻度尺表示了被聚为一类反应的相似度。相似度在0-1之间变化,越接近1表示越相似,越接近0表示越不相似。图6中部的彩色带的每一行表示一个构成特征空间的主成分,每一列表示一个Michael加成反应。第i行和第j列方块的颜色表示了第j个反应第i个主成分上的坐标值。从图6可以看到二次分类后较第一次分类更清晰明朗了,类与类之间的连线也较第一次分类更简单了。图6中白框所圈定的反应产物都显示在左下窗口中,它们的最大公共子结构显示在右下窗口中。由于二次分类后,反应已得到精确分类,就可以每类反应的最大公共子结构为核心,将这一类反应归为同一类反应,即同类反应。它们都以该最大公共子结构作为反应的核心骨架,核心骨架以外的部分都可用R基团表示,从而得到可用化学家熟悉的通式表示的基核反应。
                  实施例2:Sharpless环氧化反应
在实施例1介绍的所建立的包含2615个反应的反应数据库中,以下面所示的反应模式为提问反应到这数据库中进行检索,得到113个Sharpless环氧化反应。
Figure A0314164200171
采用本发明中介绍的方法,参照实施例1就可以得到这113个Sharpless环氧化反应的两次分类。在第一次分类时,从139个一级描述符中得到了74个有意义的一级描述符,进行主成分分析后选取了前25个主成分,它们的累积百分数为96.503%。第一次分类所用的程序为本专利发明人自主开发的ReactAnalys。
在第一次分类结果的基础上,对被分在同一类的反应产物寻找它们两两之间的最大公共子结构,得到了一组112个最大公共子结构。从中删除了过小、出现次过少而普适性小和重复片段后,筛选出一组共7个无冗余的、真正意义上具有描述能力的最大公共子结构作为反应结构二级描述符。再进一步用主成分分析法(PCA)进行特征抽提,选取了前6个主成分,它们的累积百分数为92.393%。在此特征空间中这些反应得到了较理想的分类。第二次分类所用的程序仍为本专利发明人自主开发的ReactAnalys。
本实施例中的113个Sharpless反应经上述方法处理后得到的二次聚类结果用本专利发明人自主开发的ReactView显示分别如图7和图8所示。从图8可以看到经第二次分类后类与类之间的连线十分简单明了,共得到19个反应类别。在图8中用白框依此所圈定每个反应类别,反应产物都显示在左下窗口中,它们的最大公共子结构显示在右下窗口中。由于二次分类后,113个Sharpless反应已得到精确分类,就可以每类反应的最大公共子结构为核心,将这一类反应归为同一类反应,即以通式表示的同类反应。运行本专利发明人自主开发的ReactAnalys程序对第二次分类结果进行处理,就能得到以每类反应的最大公共子结构作为反应的核心骨架,核心骨架以外的部分用R基团表示的通式反应。这些通式反应与原始的特定反应和基型反应按图9所示的层次方式组织起来就得到了以层次模型表述的Sharpless反应知识。这种层次模型表述的反应知识将更合理地组织在同类反应知识库中,使它们得到更好的利用。
                实施例3:Claisen酯缩合反应
在实施例1介绍的所建立的包含2615个反应的反应数据库中,以下面所示的反应模式为提问反应到这数据库中进行检索,得到230个Claisen酯缩合反应。
Figure A0314164200181
采用本发明中介绍的方法,参照实施例1和2就可以得到这230个Claisen酯缩合反应的两次分类。在第一次分类时,从139个一级描述符中得到了102个有意义的一级描述符,进行主成分分析后选取了前36个主成分,它们的累积百分数为87.550%。第一次分类所用的程序为本专利发明人自主开发的ReactAnalys。
在第一次分类结果的基础上,对被分在同一类的反应产物寻找它们两两之间的最大公共子结构,得到了一组229个最大公共子结构。从中删除了过小、出现次过少而普适性小和重复片段后,筛选出一组共20个无冗余的、真正意义上具有描述能力的最大公共子结构作为反应结构二级描述符。再进一步用主成分分析法(PCA)进行特征抽提,选取了前14个主成分,它们的累积百分数为83.980%。在此特征空间中这些反应得到了较理想的分类。第二次分类所用的程序仍为本专利发明人自主开发的ReactAnalys。
由于二次分类后,230个Claisen酯缩合反应已得到精确分类,就可以每类反应的最大公共子结构为核心,将这一类反应归为同一类反应,即以通式表示的同类反应。运行本专利发明人自主开发的ReactAnalys程序对第二次分类结果进行处理,就能得到以每类反应的最大公共子结构作为反应的核心骨架,核心骨架以外的部分用R基团表示的通式反应。这些通式反应与原始的特定反应和基型反应按图10所示的层次方式组织起来就得到了以层次模型表述的Claisen酯缩合反应知识。这种层次模型表述的反应知识将更合理地组织在同类反应知识库中,使它们得到更好的利用。

Claims (12)

1一种化学反应的分类、表示同类反应的通式反应的获取、反应知识层次模型的建立及其可视化方法,其特征是由下述方法:
将化学反应的反应中心已标记的反应物和产物的结构读入计算机,先通过软件产生反应一级描述符,由反应一级描述符向量构成可度量的化学反应超空间,在化学反应超空间中进行化学反应的第一次分类,或者将化学反应超空间转换到一个较低维的空间中进行化学反应的第一次分类,依此选择每一类化学反应后计算机自动推演出每一类化学反应的核心结构用于生成这些反应的二级描述符,由反应二级描述符向量构成第二个可度量的化学反应超空间,在此化学反应超空间中进行化学反应的第二次分类,或者将此化学反应超空间转换到一个较低维的空间中进行化学反应的第二次分类,依此选择每一类化学反应后计算机自动推演出每一类化学反应的通式反应的核心结构和取代基,并组成描述这些反应知识的层次模型,同时或者分别进行反应描述符、反应描述符矢量、化学反应超空间中化学反应、分类后的同一类反应中的每个化学反应、用通式反应表示的同类化学反应的可视化。
2如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的反应一级描述符和反应二级描述符的产生是根据化学反应中反应物和产物的结构分别由程序计算得到描述它们结构特征参数的过程,这些参数就分别是化学反应的反应一级描述符和反应二级描述符。
3如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的反应物和产物的结构是指描述反应物和产物的原子间拓扑连接关系的二维化学结构式以及它存储在计算机中的描述了这种原子间拓扑连接关系的文件。
4如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的反应一级描述符的产生是应用预先定义的139结构片段在反应物和反应产物中寻找的过程。
5如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的反应二级描述符的产生是在第一次分类的结果基础上,先从被分在同一类的反应产物可得到一组它们两两之间的最大公共子结构,然后对它们进行过滤,筛选出一组无冗余的、真正意义上具有描述能力的最大公共子结构作为反应二级描述符的过程。
6如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的反应描述符矢量的可视化方法是将一个化学反应的所有反应描述符所对应的颜色组成一条色带,这一色带即是这个化学反应对应的反应描述符矢量的可视化表示。
7如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的化学反应超空间中化学反应的可视化方法是将被分类化学反应中每个化学反应的反应描述符矢量色带拼接成一个有色方块。
8如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的化学反应超空间是将所产生的反应描述符组成一个描述符向量,用降维方法抽提原始描述符向量中所包含的特征组成一个维数较低的特征向量空间。
9如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是的采用聚类分析方法将化学反应进行分类。
10如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是将本发明所描述的化学反应分类结果在计算机上以树状图分层次地显示。
11如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是获得同一类化学反应的通式反应和反应知识层次模型的核心结构和取代基的方法系采用基于图论中团检测算法的最大公共子结构识别方法,即找出同一类反应中的所有产物的最大公共子结构作为该类化学反应的通式反应的核心结构,原结构中扣除最大公共子结构后的结构片断作为通式反应和反应知识层次模型中核心结构的取代基。
12如权利要求1所述的一种化学反应的分类、通式反应的获取和反应知识层次模型的建立及其可视化方法,其特征是所述的用通式反应表示的同类化学反应的可视化方法是将化学反应分类结果与这一类化学反应的通式反应表示中的核心结构和取代基组合在一起在计算机上用图示方式表示。
CN 03141642 2003-07-16 2003-07-16 化学反应的分类和知识层次模型的建立及其可视化方法 Expired - Fee Related CN1260650C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03141642 CN1260650C (zh) 2003-07-16 2003-07-16 化学反应的分类和知识层次模型的建立及其可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03141642 CN1260650C (zh) 2003-07-16 2003-07-16 化学反应的分类和知识层次模型的建立及其可视化方法

Publications (2)

Publication Number Publication Date
CN1514359A true CN1514359A (zh) 2004-07-21
CN1260650C CN1260650C (zh) 2006-06-21

Family

ID=34240335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03141642 Expired - Fee Related CN1260650C (zh) 2003-07-16 2003-07-16 化学反应的分类和知识层次模型的建立及其可视化方法

Country Status (1)

Country Link
CN (1) CN1260650C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170014A (zh) * 2017-04-27 2017-09-15 张亚希 液体颜色变化的观测方法、装置及系统
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质
CN116226472A (zh) * 2022-11-17 2023-06-06 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170014A (zh) * 2017-04-27 2017-09-15 张亚希 液体颜色变化的观测方法、装置及系统
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质
CN111524557B (zh) * 2020-04-24 2024-04-05 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质
CN116226472A (zh) * 2022-11-17 2023-06-06 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和系统

Also Published As

Publication number Publication date
CN1260650C (zh) 2006-06-21

Similar Documents

Publication Publication Date Title
Daru et al. Understanding the processes underpinning patterns of phylogenetic regionalization
Fang et al. Mining low-support discriminative patterns from dense and high-dimensional data
CN103744846B (zh) 一种多维度动态局部知识地图及其构建方法
US7870113B2 (en) System and method for organizing data
Warr Representation of chemical structures
US20030171876A1 (en) System and method for managing gene expression data
CN112035453A (zh) 基于gbdt高阶特征组合的推荐方法、装置及存储介质
D’Ambrosio et al. A differential evolution algorithm for finding the median ranking under the Kemeny axiomatic approach
CN109165273B (zh) 一种面向大数据环境的通用中文地址匹配方法
CN113836341B (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
CN101504654A (zh) 一种实现数据库模式自动匹配的方法
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN109754177A (zh) 污染源画像标签体系、污染源画像的构造方法及其应用
JP2006518501A (ja) エネルギー情報を編成して検索するための方法及びシステム
Afzal et al. OWLMap: fully automatic mapping of ontology into relational database schema
CN1260650C (zh) 化学反应的分类和知识层次模型的建立及其可视化方法
Messaoud et al. A new OLAP aggregation based on the AHC technique
CN113362915B (zh) 一种基于多模态学习的材料性能预测方法及系统
CN110138839A (zh) 一种基于易经八卦阵二叉树排布的物联网地址快速搜索方法
CN105426460A (zh) 科研信息管理方法
CN110765163B (zh) 一种大数据处理流程的执行计划生成方法
Usman et al. A methodology for integrating and exploiting data mining techniques in the design of data warehouses
CN110781245A (zh) 民族文化知识数据仓库的构建方法
CN107491889A (zh) 基于动态报表的工业领域能耗分析系统及其方法
CN105938488A (zh) 一种数据挖掘用粗糙近似表示系统构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060621

Termination date: 20150716

EXPY Termination of patent right or utility model