CN110021373A - 一种化学反应的合法性预测方法 - Google Patents

一种化学反应的合法性预测方法 Download PDF

Info

Publication number
CN110021373A
CN110021373A CN201710846223.3A CN201710846223A CN110021373A CN 110021373 A CN110021373 A CN 110021373A CN 201710846223 A CN201710846223 A CN 201710846223A CN 110021373 A CN110021373 A CN 110021373A
Authority
CN
China
Prior art keywords
chemical reaction
vector
chemical
machine learning
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710846223.3A
Other languages
English (en)
Inventor
张倬胜
赵海
姜舒
李江彤
杨旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710846223.3A priority Critical patent/CN110021373A/zh
Publication of CN110021373A publication Critical patent/CN110021373A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种化学反应的合法性预测方法,具体包括如下步骤:切分,对化学反应进行信息采集,机器学习模块对化学方程式中的元素进行切分,得到独立元素;矢量化,把切分后的每个元素作为词汇单元,建立元素表,通过词嵌入的方法将每个元素映射至特定维度的向量空间中,直至将所有元素用向量表示;结果预测,机器学习模块进行化合物的特征表示以及化学反应的内在特征表示,将表示结果的特征空间通过全连接层,得到原始化合物和目标化合物的特征表示,通过计算特征向量间的距离进行合法度判断,得到并输出化成功率预测结果;分类更新,机器学习模块将化学反应的历史数据按照是否成功分为正例和负例,结合损失函数及惩罚项更新系统参数,使结果不断趋向准确。

Description

一种化学反应的合法性预测方法
技术领域
本发明属于计算机科学与化学有机合成的交叉领域,涉及一种基于机器学习技术对化学反应的特征提取与分析、校验有机合成合法性并预测未知化学反应的成功率的方法。
背景技术
机器学习在生物制药、医疗诊断等诸多领域大放异彩,改变了传统的研究方法,提高了科研效率,促使众多行业发生变革。通过学习数据中隐藏的深层信息,挖掘内在关联,从而做出预测和判断,使得机器学习系统具备极其有效的洞察力和高效率,在垂直领域达到与人类相当甚至超过人类的能力。
传统有机合成模式,不仅是对成本和实验工作者体力的挑战,更是对路线设计者记忆力和分析能力的挑战。人们必须回忆多个有机反应的机理,而后在大量查阅文献的基础上,才可能得到一个看似合理的逆合成分析,在目标分子和可得原料之间建立起联系。这一分析过程由于需要大量经验积累,所以很难由学生自己完成,通常是由导师作为总设计师,而研究生需要做的往往是在实验室里彻夜工作,使路线变为现实。即使真正打通的合成路径,又往往因为需要太多的合成步骤、产率太低或者成本过高,而止步于论文发表,真正能够实现商业化、成为一种制药工业方法的则更是凤毛麟角。
发明内容
本发明的目的是为克服上述问题,提出一种化学反应的合法性预测方法,能够通过学习学习模块提取与分析化学反应的特征,校验有机合成合法性,预测未知化学反应的成功率。
本发明所提出的一种化学反应的合法性预测方法具体包括如下步骤:
第一步,切分,对化学反应进行信息采集,机器学习模块对化学方程式中的元素进行切分,得到独立元素;
第二步,矢量化,把切分后的每个元素作为词汇单元,建立元素表,通过词嵌入的方法将每个元素映射至特定维度的向量空间中,直至将所有元素用向量表示;
第三步,结果预测,机器学习模块进行化合物的特征表示以及化学反应的内在特征表示,将表示结果的特征空间通过全连接层,得到原始化合物和目标化合物的特征表示,通过计算特征向量间的距离进行合法度判断,得到并输出化成功率预测结果;
第四步,分类更新,机器学习模块将化学反应的历史数据按照是否成功分为正例和负例,结合损失函数及惩罚项更新系统参数,使结果不断趋向于正确的预测与判定结果。
进一步的,为了使切分过程得以自动进行,在切分步骤中,机器学习模块建立一个包含M个词的元素表,首先将人工标注的按周期表元素或者化合物切分数据寄存入数据库中,机器学习模块依照所述数据为起点进行自动切分。
进一步的,为了便于计算特征值,在矢量化步骤中,词嵌入的方法将反应中包含的K个元素映射至特定维度N的向量空间中,得到M×N的映射空间,此时切分元素表示为(K,M,N)维度的向量。
进一步的,为了便于系统更新,在结果预测步骤中,机器学习模块将标签Y赋值为0或1分别表示化学反应合法或不合法,(K,M,N)维度的原始化合物s和目标化学物t表示为r=([s,t],label),则n条化学反应表示为R(n)={r1,r2,…,rn}。
进一步的,为了量化判断化学反应的合法性,在结果预测步骤中,可以通过向量点乘、余弦距离以及欧式距离进行合法度判断;其中,欧氏距离、余弦距离分别满足
进一步的,在分类更新步骤中,损失函数满足
当化学合成不合法,即成功率y=0时,距离Ew越大,损失越小;当化学合成合法,即成功率y=1时,距离Ew越大,损失越大。以此规则使结果不断趋向准确。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面进一步阐述上述技术方案。
一种化学反应的合法性预测方法,将每个化学元素视为一个词,建立一个包含M个词的元素表。为了使模型能自动对元素进行切分,可使用人工标注的切分数据,预先训练切分模型对元素进行切分。切分方法包含按照周期表元素切分、按化合物切分。
元素切分后,使用词嵌入(Word Embedding)的方法将每个元素映射至特定维度N的向量空间中,此时得到一个M×N的映射空间(Embedding)。假定某条反应中包含K个元素,此时该反应则表示为(K,M,N)维度的向量。
将已有的化学反应按照是否成功分为正例和负例,用1或0的标签 (label)表示。标签y=0表示化学反应不合法。y=1则表示合法。此时输入则表示为r=([s,t],label),s和t分别表示为(K,M,N)维度的原始化合物和目标化学物。假设有n条化学反应,则输入表示为R(n)={r1,r2,…,rn}。
机器学习算法通过对化合物和化学反应特征提取与分析,分别得到原始化合物和目标化合物的特征表示后,模型通过计算向量距离来进行合法度判定。可采用向量点乘(dot距离)、Cosine距离(余弦距离)、欧式距离等向量相似度计算方法来计算合法度,其中,
欧氏距离:
余弦距离:
将得到的预测概率与实际合法度标签的距离进行计算,结合损失函数更新系统参数,不断趋向于正确的预测与判定结果。LOSS函数的设计为:
当化学合成不合法(成功率y=0)时,距离Ew越大,损失越小,即关于 Ew的单调递减函数。
当化学合成合法(成功率y=1)时,距离Ew越大,损失越大,即关于Ew 的单调递增函数。
例如,LOSS函数包括并不仅限于如下形式:
其中,Y是标签,当Y=1表示化学反应不合法,Y=0表示化学反应合法。对于Y=0的情况,第二项为0,第一项直接变成两个特征的距离平方,因此距离越小则值越小,距离越大则值越大。当Y=1时,第一项为0,第二项是一个hinge loss,当化合物特征表示之间的距离小于m的时候,模型会得到一个m-D(C1,C2)的惩罚,但是当距离大于m的时候,则没有惩罚。距离越大受到的惩罚越小。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (6)

1.一种化学反应的合法性预测方法,其特征在于,所述方法具体包括如下步骤:
1)切分,对化学反应进行信息采集,机器学习模块对化学方程式中的元素进行切分,得到独立元素;
2)矢量化,把切分后的每个元素作为词汇单元,建立元素表,通过词嵌入的方法将每个元素映射至特定维度的向量空间中,直至将所有元素用向量表示;
3)结果预测,机器学习模块进行化合物的特征表示以及化学反应的内在特征表示,将表示结果的特征空间通过全连接层,得到原始化合物和目标化合物的特征表示,通过计算特征向量间的距离进行合法度判断,得到并输出化成功率预测结果;
4)分类更新,机器学习模块将化学反应的历史数据按照是否成功分为正例和负例,结合损失函数及惩罚项更新系统参数,使结果不断趋向准确。
2.根据权利要求1所述的一种化学反应的合法性预测方法,其特征在于,切分步骤中,机器学习模块建立一个包含M个词的元素表,首先将人工标注的按周期表元素或者化合物切分数据寄存入数据库中,机器学习模块依照所述数据进行自动切分。
3.根据权利要求1所述的一种化学反应的合法性预测方法,其特征在于,矢量化步骤中,词嵌入的方法将反应中包含的K个元素映射至特定维度N的向量空间中,得到M×N的映射空间,此时切分元素表示为(K,M,N)维度的向量。
4.根据权利要求1所述的一种化学反应的合法性预测方法,其特征在于,结果预测步骤中,机器学习模块将标签Y赋值为0或1分别表示化学反应合法或不合法,(K,M,N)维度的原始化合物s和目标化学物t表示为r=([s,t],label),则n条化学反应表示为R(n)={r1,r2,…,rn}。
5.根据权利要求4所述的一种化学反应的合法性预测方法,其特征在于,结果预测步骤中,通过向量点乘、余弦距离以及欧式距离进行合法度判断;其中,欧氏距离、余弦距离分别满足
6.根据权利要求4所述的一种化学反应的合法性预测方法,其特征在于,分类更新步骤中,损失函数满足
CN201710846223.3A 2017-09-19 2017-09-19 一种化学反应的合法性预测方法 Pending CN110021373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710846223.3A CN110021373A (zh) 2017-09-19 2017-09-19 一种化学反应的合法性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710846223.3A CN110021373A (zh) 2017-09-19 2017-09-19 一种化学反应的合法性预测方法

Publications (1)

Publication Number Publication Date
CN110021373A true CN110021373A (zh) 2019-07-16

Family

ID=67186239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710846223.3A Pending CN110021373A (zh) 2017-09-19 2017-09-19 一种化学反应的合法性预测方法

Country Status (1)

Country Link
CN (1) CN110021373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023133678A1 (zh) * 2022-01-11 2023-07-20 上海药明康德新药开发有限公司 一种预测化学反应的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392098A (zh) * 2014-10-27 2015-03-04 中国石油大学(北京) 一种预测催化裂化汽油产率的方法
US20160103979A1 (en) * 2014-10-13 2016-04-14 Samsung Electronics Co., Ltd. Methods and apparatus for in silico prediction of chemical reactions
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
US20170121852A1 (en) * 2015-10-28 2017-05-04 Samsung Electronics Co., Ltd Method and device for in silico prediction of chemical pathway
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160103979A1 (en) * 2014-10-13 2016-04-14 Samsung Electronics Co., Ltd. Methods and apparatus for in silico prediction of chemical reactions
CN104392098A (zh) * 2014-10-27 2015-03-04 中国石油大学(北京) 一种预测催化裂化汽油产率的方法
US20170121852A1 (en) * 2015-10-28 2017-05-04 Samsung Electronics Co., Ltd Method and device for in silico prediction of chemical pathway
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CONNOR W. COLEY等: "Prediction of Organic Reaction Outcomes Using Machine Learning", 《2017 AMERICAN CHEMICAL SOCIETY》 *
J.N.WEI等: "Neural networks for the prediction of organic chemistry reactions", 《ACS CENTRAL SCI》 *
P.RACCUGLIA等: "Machine-learning-assisted materials discovery using failed experiments", 《NATURE》 *
龙海林等: "MOLMAP指数生成及其在化学反应分类和反应性预测中的应用", 《计算机与应用化学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023133678A1 (zh) * 2022-01-11 2023-07-20 上海药明康德新药开发有限公司 一种预测化学反应的方法

Similar Documents

Publication Publication Date Title
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
Lucas et al. EV idle time estimation on charging infrastructure, comparing supervised machine learning regressions
CN104090890A (zh) 关键词相似度获取方法、装置及服务器
Zhang et al. A method for traffic congestion clustering judgment based on grey relational analysis
CN111259112B (zh) 医疗事实的验证方法和装置
Ni et al. Multi-mode two-step floating catchment area (2SFCA) method to measure the potential spatial accessibility of healthcare services
Sadeghi-Tehran et al. Scalable database indexing and fast image retrieval based on deep learning and hierarchically nested structure applied to remote sensing and plant biology
Xing et al. Large-scale traffic congestion prediction based on the symmetric extreme learning machine cluster fast learning method
Das et al. A comprehensive survey of statistical approaches for differential expression analysis in single-cell RNA sequencing studies
CN103617203A (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
Zhang et al. Quantifying the urban visual perception of Chinese traditional-style building with street view images
Choosakun et al. Development of the cooperative intelligent transport system in Thailand: A prospective approach
Li et al. Time series clustering model based on DTW for classifying car parks
Sipos et al. Spatial econometric analysis of road traffic crashes
Ji et al. Deep learning model for form recognition and structural member classification of east asian traditional buildings
Sideris et al. Using random forests on real-world city data for urban planning in a visual semantic decision support system
Rieder et al. A scientific perspective on using artificial intelligence in sustainable urban development
Chuwang et al. Forecasting daily and weekly passenger demand for urban rail transit stations based on a time series model approach
Shang et al. A hybrid method for traffic state classification using K-medoids clustering and self-tuning spectral clustering
Martins et al. Multi-class phased prediction of academic performance and dropout in higher education
CN110021373A (zh) 一种化学反应的合法性预测方法
CN103902848A (zh) 基于药物相互作用相似性识别药物靶标的系统及方法
Gao et al. A novel calculation method of process load for extra-large section tunnels
Mao et al. A novel dynamic dispatching method for bicycle-sharing system
Zheng et al. Identifying modes of driving railway trains from gps trajectory data: An ensemble classifier-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication