CN117316333A - 基于通用的分子图表示学习模型的逆合成预测方法及装置 - Google Patents
基于通用的分子图表示学习模型的逆合成预测方法及装置 Download PDFInfo
- Publication number
- CN117316333A CN117316333A CN202311594924.4A CN202311594924A CN117316333A CN 117316333 A CN117316333 A CN 117316333A CN 202311594924 A CN202311594924 A CN 202311594924A CN 117316333 A CN117316333 A CN 117316333A
- Authority
- CN
- China
- Prior art keywords
- reaction
- layer
- learning model
- template
- molecular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 118
- 238000006243 chemical reaction Methods 0.000 claims abstract description 106
- 206010024769 Local reaction Diseases 0.000 claims abstract description 51
- 238000006757 chemical reactions by type Methods 0.000 claims abstract description 25
- 239000000376 reactant Substances 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 239000010410 layer Substances 0.000 claims description 174
- 238000012549 training Methods 0.000 claims description 78
- 238000012795 verification Methods 0.000 claims description 53
- 238000012360 testing method Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 44
- 230000002776 aggregation Effects 0.000 claims description 37
- 238000004220 aggregation Methods 0.000 claims description 37
- 230000005540 biological transmission Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000004931 aggregating effect Effects 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 6
- 239000013047 polymeric layer Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 239000000047 product Substances 0.000 description 64
- 238000012512 characterization method Methods 0.000 description 7
- 239000013604 expression vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于通用的分子图表示学习模型的逆合成预测方法及装置,该方法将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,计算得到所有产物的原子和键的特征表示向量;通过预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;将目标产物的分子图输入到最终的分子图表示学习模型中,获得目标产物的原子和键应用局部反应模板的评分,获得前top‑k对应的反应类型、反应中心位置、模板id和发生反应概率;根据评分对应的模板id从模板库中提取反应模板,将反应模板应用于产物,获得预测的反应物。本发明通过逆合成的通用分子图表示学习模型,增强在基于图的逆合成预测中对分子图的表征能力,提高逆合成预测准确率。
Description
技术领域
本发明涉及一种基于通用的分子图表示学习模型的逆合成预测方法及装置,属于逆合成预测技术领域。
背景技术
在实际的生产环境中,化学家们通常致力于为目标分子设计合理的合成路线。目前,一种常见的策略是将目标分子分解为更简单的前体,直到可购买化合物的迭代过程,即逆合成分析。但是,逆合成分析依靠化学家们累积的经验,设计合成路线不仅需要大量的人力和时间,且不同化学家的经验知识存在偏向性,不一定能够设计出最优合成路线。因此,使用深度学习自动化这一过程对于发现和优化合成路线至关重要。
传统技术中,基于深度学习的逆合成方法主要分为基于序列的方法和基于图的方法。基于序列的方法通常使用翻译模型(如transformer)直接对分子的表达式进行建模,如SMILES。分子结构作为一个天然的图结构,利用图学习模型建模分子图具有天然的优势,因此,基于图的方法将分子构建为图,通过在图上进行消息传递学习原子和键的特征表示。最近,也有一些方法将它们结合起来,先使用图学习模型学习图的结构信息,再将其输入到翻译模型中学习序列信息。大多数利用图的逆合成方法都使用传统的消息传递网络或图神经网络学习原子和键的特征表示,如MPNN、GAT等,这些方法不足以表征图中的特征信息和拓扑结构,且局限于分子图的局部表征。
发明内容
为此,本发明提供一种基于通用的分子图表示学习模型的逆合成预测方法及装置,提出一个通用的分子图表示学习模型,增强用于逆合成的图学习模型对分子图的表征能力,解决传统的图神经网络对分子图的表征能力差,逆合成预测准确率低的技术问题。
为了实现上述目的,本发明提供如下技术方案:基于通用的分子图表示学习模型的逆合成预测方法,包括:
对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,所述分子图表示学习模型的构建过程中:
以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;
将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集;
对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签的步骤包括:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;
根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量。
作为基于通用的分子图表示学习模型的逆合成预测方法优选方案,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
本发明还提供一种基于通用的分子图表示学习模型的逆合成预测装置,包括:
数据集处理模块,用于对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
特征处理模块,用于将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
概率评分模块,用于将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
模型处理模块,用于以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
目标产物处理模块,用于对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
目标产物预测评分模块,用于将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
反应物预测模块,用于根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
作为基于通用的分子图表示学习模型的逆合成预测装置优选方案,所述数据集处理模块中,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象;
所述数据集处理模块中,以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集。
作为基于通用的分子图表示学习模型的逆合成预测装置优选方案,所述特征处理模块中,对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签;
所述特征处理模块中:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量。
作为基于通用的分子图表示学习模型的逆合成预测装置优选方案,所述概率评分模块中,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;
还包括键评分更新模块,用于根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分。
作为基于通用的分子图表示学习模型的逆合成预测装置优选方案,所述模型处理模块中,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示;
所述模型处理模块中,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量;
所述模型处理模块中,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述模型处理模块中,所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
本发明具有如下优点:采用分子图表示学习模型可以应用于任意基于图的逆合成预测方法中学习分子图表征,以增强原子和键的特征表示;基于图神经网络构建消息传递层,能够更好学习分子图中的特征信息和拓扑结构,实现更高质量的原子和键的局部表征;采用逐元素乘法不仅融合邻居节点和边的特征信息,还能够突出节点之间的相似性,稀释不一致信息,通过图注意力机制以不同的权重聚合来在多个邻居节点的特征信息,区分它们的重要性;通过GRU组合节点的原始特征与高阶邻居特征,识别远端基团对目标节点的影响;基于注意力机制的个性化聚合层代替自链接不仅能够实现自链接的效果,还能组合所有层的特征信息,并进一步缓解过拟合,而注意力机制使每一个原子和键都有适合自己的聚合权重,自适应地根据重要性聚合每一层的特征信息;基于多头自注意力的全局注意力层,以消息传递层的局部特征为输入,通过多头自注意力机制捕捉分子图的全局反应信息,使目标原子或键同时考虑它的周围局部信息和分子全局信息对该位置发生反应的影响;健特征更新能够保留键的原始特征,防止键的低维特征在消息传递过程中带来的过拟合问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
图1为本发明实施例中提供的基于通用的分子图表示学习模型的逆合成预测方法流程示意图;
图2为本发明实施例中提供的分子图表示学习的逆合成预测模型的流程框图;
图3为本发明实施例中提供的基于通用的分子图表示学习模型的逆合成预测方法中消息传递层的流程框图;
图4为本发明实施例中提供的基于通用的分子图表示学习模型的逆合成预测方法中根据SMILES生成的分子图示例部分一;
图5为本发明实施例中提供的基于通用的分子图表示学习模型的逆合成预测方法中根据SMILES生成的分子图示例部分二;
图6为本发明实施例中提供的基于通用的分子图表示学习模型的逆合成预测装置架构图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1、图2和图3,本发明实施例1中提供基于通用的分子图表示学习模型的逆合成预测方法,包括以下步骤:
S1、对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
S2、将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
S3、将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
S4、以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
S5、对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
S6、将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
S7、根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
本实施例中,在步骤S1,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象。
其中,使用RDKit工具包提取产物中原子和键的特征,本实施例中使用的原子特征包括原子类型、手性、形式电荷、部分电荷、芳香原子、杂化、氢键供体、氢键受体、原子所属的环数(环的大小在3到8之间),键的特征包括键的类型、键共轭、环内键、键的立体构型,经过one-hot编码,原子和键的特征向量的维度分别为80和12。
其中,使用DGL-LifeSci工具包根据产物的SMILES生成分子图,其中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将分子图的结构、原子和键的特征整合为一个DGLGraph对象作为模型输入。
本实施例中,在步骤S2,所述分子图表示学习模型的构建过程中:
以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;
将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集;
对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签。
其中,根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签的步骤包括:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量。
本实施例中,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示。
其中,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量的公式为:
;
;
式中,和/>分别表示原子和键的原始特征,/>表示激活函数,/>表示参数矩阵,/>表示偏置向量;将/>从/>的特征向量转化为/>的特征矩阵,/>表示隐藏层的维度;/>为原子的特征表示向量, />为键的特征表示向量;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量。
本实施例中,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
具体的,所述消息传递层用于聚合局部邻居的特征信息,首先,通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量,公式如下:
;
其中,表示第/>层的邻居节点/>向目标节点/>的消息传递向量,表示求和,/>表示第/>层的节点特征向量;然后,通过一个基于图注意力的聚合方法,聚合来自多个目标节点的特征,公式如下:
;
;
;
其中,表示向量串联;然后,利用一个归一化方法对/>进行归一化,以缓解多层GNN过拟合带来的负面影响,公式如下:
;
其中,表示节点个数,/>是一个可调节的超参数;然后,通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量,公式如下:
;
得到所述第层节点特征向量之后,将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量,公式如下:
。
其中,个性化聚合层用于聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,同时利用注意力机制为每个边和节点赋予个性化的权重,节点的层聚合公式如下:
;
;
;
式中, 表示第k层的聚合注意力值,/>表示第k层的节点a的局部特征向量, />表示第k层的聚合权重;/>是注意力向量;边的局部特征向量/>同理可得。
其中,全局注意力层基于多头自注意力机制,以节点和边的局部特征为输入,用于学习分子图的全局反应信息,获得节点和边的全局表示,以节点为例,首先,每个节点的Q、K和V通过对节点的局部特征向量进行线性计算获得,公式如下:
;
;
;
其中,、/>和/>分别表示自注意力机制中的Query、Key和Value矩阵,、/>和/>是可学习的参数矩阵,/>表示多头自注意力;其次,计算节点的全局表示,公式如下:
;
式中,为表示T头的Key,d为向量维度,n为节点和边的数量。
然后,利用线性层组合多头自注意力的结果,得到节点最终的全局表示,公式如下:
;
边的全局表示同理可得,所得到的原子和键的全局表示/>和/>即为分子图表示学习模型的最终输出。
本实施例中,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;
根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分。
具体的,预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分,公式如下:
;
;
其中,预测结果和/>的维度分别与原子模板和键模板数量相等,评分对应的下标即为对应模板的id。
键评分更新根据键原始特征调整学习到的键特征所得的评分,公式如下:
;
;
;
;
式中,f和r分别表示原始特征和学习到的特征的权重,m表示提取原始特征与学习到的特征之前的相关性,为调整后的键评分。
在一种可能的实施例中,消息传递层的层数设定为6,全局注意力层的多头注意力头数设定为8,消息传递层中归一化层的超参数s=1,隐藏层的维度d=320,在训练过程中,优化器参数使用的自适应调整的Adam函数;损失函数使用的是交叉熵损失函数;batch_size为16;dropout为0.2,学习率为0.0001,且学习率每训练10次降低至0.1倍;如果验证集损失持续5次不减少,则训练终止,验证集损失最小的模型为最终模型。
其中,训练过程如下:
(1)首先,提取训练集中产物生成的分子图,依次从训练集中抽取16个分子图作为分子图表示学习模型的输入进行训练,训练时采用的是小批次随机梯度下降的方法,对于一个批次的16个分子图,使用DGL工具包中的方法将16个分子图整合成一个大图,方便一次性计算,取其中一个批次的分子图graph及原子特征和分子特征/>阐述分子图表示学习模型在训练中的处理过程;
(2)原子特征和分子特征/>经过嵌入层获得稠密的特征向量/>和/>,将graph及原子和键的特征向量输入消息传递层,将前一层的输出作为下一层的输入,实现高阶邻居之间的特征传递,经过多层迭代,获得每一层的结果/>和/>,然后,利用个性化聚合层的模板聚合所有层的结果,获得原子和键的局部特征向量/>和/>,然后,将局部特征向量经过全局注意力层学习全局表示/>和/>,接着,将全局表示输入预测层,获得原子和键的预测评分/>和/>,最后根据键的原始特征/>更新键的评分/>,得到键的最终评分/>;
(3)使用交叉熵损失函数计算模型得到的评分和/>与真实标签之间的损失,然后采用反向传播算法对网络模型参数进行更新,从训练集中每提取一个批次更新一次模型参数,训练集迭代完成即执行完一次训练,然后将验证集的分子图输入模型计算验证集的损失。经过多轮训练,当验证集损失小于上一次训练的损失,保存当前模型为最佳模型,当验证集损失连续5次不下降,停止训练,保存的最佳模型即为最终分子图表示学习模型,最后将测试集的数据输入最终分子图表示学习模型,验证分子图表示学习模型的性能。
通过上述步骤,最后可得到最终分子图表示学习模型,用于进行逆合成预测。
其中,在预测过程中,将需要预测的产物的SMILES转化为分子图;将分子图输入到已训练完成的最终分子图表示学习模型中,获得原子和键应用局部反应模板的预测评分,将所有原子和键的评分串联在一起,选择前top-k个最高的预测评分,获得其对应的反应类型、反应中心位置、模板id和发生反应概率;根据top-k的预测结果提取对应的反应模板,利用RDKit将它们应用于所述产物,得到预测的反应物。选择前top-k个最高的预测评分,获得其对应的反应类型、反应中心位置、模板id和发生反应概率,反应类型表示在原子处发生反应或在键处发生反应,反应中心位置表示发生反应的原子或键的id,模板id与评分在预测向量中的下标相对应,发生反应概率即预测评分。
参见图4和图5,以下给出一个具体的实施案例:
(1)需要预测的产物SMILES如下:
[OH:1][CH2:2][c:3]1[cH:4][c:5]([Br:6])[cH:7][cH:8][c:9]1[Cl:10]
(2)根据SMILES生成其分子图及特征如图4;
(3)将分子图与特征输入训练好的分子图表示学习模,获得原子和键的评分,将所有原子和键的评分串联在一起,选择前top-5个最大的评分,其对应的反应类型、反应中心位置、模板id和发生反应概率如表1所示:
表1 前top-5个最大的评分对应的反应类型、反应中心位置、模板id和发生反应概率
。/>
根据评分从模板库中提取对应的模板如表2所示:
表2 前top-5个最大的评分从模板库中提取的对应模板
。
根据模板生成反应物如表3所示:
表3 前top-5个最大的评分根据模板生成的反应物
。
综上所述,本发明实施例对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。本发明实施例可以应用于任意基于图的逆合成预测方法中学习分子图表征,以增强原子和键的特征表示。其中,基于图神经网络构建消息传递层,能够更好学习分子图中的特征信息和拓扑结构,实现更高质量的原子和键的局部表征,其中逐元素乘法不仅融合邻居节点和边的特征信息,还能够突出节点之间的相似性,稀释不一致信息,通过图注意力机制以不同的权重聚合来在多个邻居节点的特征信息,区分它们的重要性,通过归一化层缓解GNN存在的过平滑问题,避免节点特征趋于相似而难以区分,通过GRU组合节点的原始特征与高阶邻居特征,识别远端基团对目标节点的影响;基于注意力机制的个性化聚合层代替自链接不仅能够实现自链接的效果,还能组合所有层的特征信息,并进一步缓解过拟合,而注意力机制使每一个原子和键都有适合自己的聚合权重,自适应地根据重要性聚合每一层的特征信息;基于多头自注意力的全局注意力层,以消息传递层的局部特征为输入,通过多头自注意力机制捕捉分子图的全局反应信息,使目标原子或键同时考虑它的周围局部信息和分子全局信息对该位置发生反应的影响。本发明实施例还通过键评分更新聚合键的原始特征和模型学习的特征,避免键特征在消息传递过程中消失以及键特征传递引起的过拟合,使其预测结果同时考虑原始特征和它对高阶原子和键的依赖关系。本发明能够更好地表征分子图中的特征信息和拓扑结构,同时学习分子图的局部表征和全局表征,增强用于逆合成的图学习模型对分子图的表征能力,并提高逆合成预测的准确率。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
实施例2
参见图6,本发明实施例2还提供一种基于通用的分子图表示学习模型的逆合成预测装置,包括:
数据集处理模块1,用于对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
特征处理模块2,用于将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
概率评分模块3,用于将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
模型处理模块4,用于以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
目标产物处理模块5,用于对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
目标产物预测评分模块6,用于将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
反应物预测模块7,用于根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
本实施例中,所述数据集处理模块1中,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象;
所述数据集处理模块1中,以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集。
本实施例中,所述特征处理模块2中,对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签;
所述特征处理模块2中:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量。
本实施例中,所述概率评分模块3中,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分。
本实施例中,所述模型处理模块4中,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示;
所述模型处理模块4中,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量的公式为:
;
;
式中,表示原子的原始特征, />表示键的原始特征,/>表示激活函数,/>表示参数矩阵,/>表示偏置向量;将/>从/>的特征向量转化为/>的特征矩阵,/>表示隐藏层的维度;/>为原子的特征表示向量,/>为键的特征表示向量;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量;
所述模型处理模块4中,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述模型处理模块4中,所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
需要说明的是,上述装置各模块之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于通用的分子图表示学习模型的逆合成预测方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于通用的分子图表示学习模型的逆合成预测方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。
实施例4
本发明实施例4提供一种电子设备,包括:存储器和处理器;
所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于通用的分子图表示学习模型的逆合成预测方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,包括:
对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
2.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象。
3.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,所述分子图表示学习模型的构建过程中:
以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;
将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集;
对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签。
4.根据权利要求3所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签的步骤包括:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量。
5.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;
根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分。
6.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示。
7.根据权利要求6所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量。
8.根据权利要求7所述的基于通用的分子图表示学习模型的逆合成预测方法,其特征在于,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
9.基于通用的分子图表示学习模型的逆合成预测装置,其特征在于,包括:
数据集处理模块,用于对训练集、验证集和测试集中的所有产物生成分子图,所有产物生成的分子图中包括图的结构、节点特征和边特征;
特征处理模块,用于将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型,通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量;
概率评分模块,用于将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层,通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分;
模型处理模块,用于以所述训练集为输入优化所述分子图表示学习模型的参数,以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估,保存训练过程中所述验证集损失最小的所述分子图表示学习模型,以所述测试集为输入对训练后的所述分子图表示学习模型进行测试,通过指定测试精度确定最终的所述分子图表示学习模型;
目标产物处理模块,用于对于待预测的目标产物,以待预测的所述目标产物的SMILES为输入,构建所述目标产物的分子图;
目标产物预测评分模块,用于将所述目标产物的分子图输入到最终的所述分子图表示学习模型中,获得所述目标产物的原子和键应用所述局部反应模板的评分,选择前top-k的预测评分,获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率;
反应物预测模块,用于根据前top-k预测评分对应的模板id从模板库中提取反应模板,使用RDKit工具包将反应模板应用于产物,获得预测的反应物。
10.根据权利要求9所述的基于通用的分子图表示学习模型的逆合成预测装置,其特征在于,所述数据集处理模块中,对训练集、验证集和测试集中的所有产物生成分子图的方式为:
使用RDKit工具包提取SMILES分子表达式中原子和键的特征;
使用DGL-LifeSci工具包根据SMILES分子表达式生成分子图,分子图中原子为图的节点,原子之间的化学键为图的边,使用DGL-LifeSci将工具包将分子图的结构、原子和键的特征整合为一个DGLGraph对象;
所述数据集处理模块中,以公开的数据集USPTO作为原始数据集,所述数据集USPTO由包括SMILES表达式的化学反应方程组成;将所述原始数据集划分为数据子集,所述数据子集包括训练集、验证集和测试集;
所述特征处理模块中,对所述训练集和所述验证集中的所有反应提取局部反应模板,并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签;
所述特征处理模块中:
对所述训练集和所述验证集,通过化学信息处理工具包RDKit对反应的SMILES表达式进行处理,提取局部反应模板,包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板,得到模板库;
根据所述模板库,对数据集中所有的反应生成标签,提取反应的反应类型、反应中心位置和对应的反应模板id;反应类型表示原子处发生反应或键处发生反应,反应中心位置表示发生反应的原子或键的id,并编码为one-hot形式的标签向量;
所述概率评分模块中,所述预测层根据节点和边的全局表示,获得每个原子和键应用局部反应模板的概率评分;
还包括键评分更新模块,用于根据键原始特征调整学习到的键特征所得的评分,得到键的最终预测评分;
所述模型处理模块中,所述分子图表示学习模型包括:
嵌入层,所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
消息传递层,所述消息传递层用于聚合目标节点邻居的特征信息,通过迭代实现高阶邻居之间的消息传递,捕捉原子和键的局部反应信息,输出原子和键的局部特征表示;
个性化聚合层:所述个性化聚合层用于将所述消息传递层的结果进行组合,为不同的原子和键赋予个性化的层聚合权重,通过加权和聚合所述消息传递层的局部特征表示;
全局注意力层:所述全局注意力层以局部特征向量为输入,提取分子的全局反应信息,获得最终的原子和键的特征表示;
所述模型处理模块中,所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量,作为消息传递层的输入;
所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征,得到邻居节点向目标节点/>的消息传递向量;通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征;利用一个平滑归一化方法对节点特征向量进行归一化;通过GRU整合节点局部特征与高阶邻居特征,得到节点的第/>层特征向量;将边两端的节点特征向量输入一个全链接层,获得边的第/>层特征向量;
所述模型处理模块中,通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量,得到节点和边的局部特征向量,并利用注意力机制为每个边和节点赋予个性化的权重;
所述模型处理模块中,所述全局注意力层基于多头自注意力机制,以节点和边的局部特征向量为输入,学习分子图的全局反应信息,获得节点和边的全局表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311594924.4A CN117316333B (zh) | 2023-11-28 | 2023-11-28 | 基于通用的分子图表示学习模型的逆合成预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311594924.4A CN117316333B (zh) | 2023-11-28 | 2023-11-28 | 基于通用的分子图表示学习模型的逆合成预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117316333A true CN117316333A (zh) | 2023-12-29 |
CN117316333B CN117316333B (zh) | 2024-02-13 |
Family
ID=89250252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311594924.4A Active CN117316333B (zh) | 2023-11-28 | 2023-11-28 | 基于通用的分子图表示学习模型的逆合成预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316333B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972531A (zh) * | 2024-03-29 | 2024-05-03 | 烟台国工智能科技有限公司 | 一种多样化的逆合成分析模型评价方法及装置 |
CN117995298A (zh) * | 2024-04-07 | 2024-05-07 | 烟台国工智能科技有限公司 | 基于断键点位提示的有机反应单步逆合成方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530516A (zh) * | 2020-12-18 | 2021-03-19 | 深圳先进技术研究院 | 一种代谢途径预测方法、系统、终端设备及可读存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN114496105A (zh) * | 2022-01-24 | 2022-05-13 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
WO2022161269A1 (zh) * | 2021-01-27 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 一种化合物分子的逆合成预测方法以及相关装置 |
US20220359045A1 (en) * | 2021-05-07 | 2022-11-10 | International Business Machines Corporation | Prediction of enzymatically catalyzed chemical reactions |
CN115424681A (zh) * | 2022-08-25 | 2022-12-02 | 西北工业大学 | 基于图表示学习的共晶预测方法 |
CN116403730A (zh) * | 2023-04-04 | 2023-07-07 | 齐鲁工业大学(山东省科学院) | 一种基于图神经网络的药物相互作用预测方法及系统 |
CN116802741A (zh) * | 2020-11-30 | 2023-09-22 | 英矽智能科技知识产权有限公司 | 逆合成系统和方法 |
CN116959613A (zh) * | 2023-09-19 | 2023-10-27 | 烟台国工智能科技有限公司 | 基于量子力学描述符信息的化合物逆合成方法及装置 |
-
2023
- 2023-11-28 CN CN202311594924.4A patent/CN117316333B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116802741A (zh) * | 2020-11-30 | 2023-09-22 | 英矽智能科技知识产权有限公司 | 逆合成系统和方法 |
CN112530516A (zh) * | 2020-12-18 | 2021-03-19 | 深圳先进技术研究院 | 一种代谢途径预测方法、系统、终端设备及可读存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
WO2022161269A1 (zh) * | 2021-01-27 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 一种化合物分子的逆合成预测方法以及相关装置 |
US20220359045A1 (en) * | 2021-05-07 | 2022-11-10 | International Business Machines Corporation | Prediction of enzymatically catalyzed chemical reactions |
CN114496105A (zh) * | 2022-01-24 | 2022-05-13 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
CN115424681A (zh) * | 2022-08-25 | 2022-12-02 | 西北工业大学 | 基于图表示学习的共晶预测方法 |
CN116403730A (zh) * | 2023-04-04 | 2023-07-07 | 齐鲁工业大学(山东省科学院) | 一种基于图神经网络的药物相互作用预测方法及系统 |
CN116959613A (zh) * | 2023-09-19 | 2023-10-27 | 烟台国工智能科技有限公司 | 基于量子力学描述符信息的化合物逆合成方法及装置 |
Non-Patent Citations (4)
Title |
---|
KELONG MAO 等: "Molecular graph enhanced transformer for retrosynthesis prediction", 《NEUROCOMPUTING》, vol. 457, pages 193 - 202 * |
WEIHE ZHONG 等: "Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing", 《NATURE COMMUNICATIONS》, vol. 14, pages 1 - 14 * |
郭世豪: "基于深度学习的化合物逆合成系统设计与实现", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》, vol. 2020, no. 8, pages 014 - 49 * |
陈鑫 等: "药物表示学习研究进展", 《清华大学学报(自然科学版)》, vol. 60, no. 2, pages 171 - 180 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972531A (zh) * | 2024-03-29 | 2024-05-03 | 烟台国工智能科技有限公司 | 一种多样化的逆合成分析模型评价方法及装置 |
CN117972531B (zh) * | 2024-03-29 | 2024-06-11 | 烟台国工智能科技有限公司 | 一种多样化的逆合成分析模型评价方法及装置 |
CN117995298A (zh) * | 2024-04-07 | 2024-05-07 | 烟台国工智能科技有限公司 | 基于断键点位提示的有机反应单步逆合成方法及装置 |
CN117995298B (zh) * | 2024-04-07 | 2024-06-04 | 烟台国工智能科技有限公司 | 基于断键点位提示的有机反应单步逆合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117316333B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117316333B (zh) | 基于通用的分子图表示学习模型的逆合成预测方法及装置 | |
US7761392B2 (en) | Configurable infinite logic signal processing network and genetic computing method of designing the same | |
CN113535984A (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
WO2014105260A1 (en) | Method and system for fast tensor-vector multiplication | |
CN117457093B (zh) | 基于数据扩增的有机反应产物逆合成方法及装置 | |
CN111832637B (zh) | 基于交替方向乘子法admm的分布式深度学习分类方法 | |
CN111651668B (zh) | 用户画像的标签生成方法及装置、存储介质、终端 | |
CN115718826A (zh) | 图结构数据中的目标节点分类方法、系统、设备及介质 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
Li et al. | An efficient algorithm for sparse inverse covariance matrix estimation based on dual formulation | |
Tuli et al. | FlexiBERT: Are current transformer architectures too homogeneous and rigid? | |
CN113849725B (zh) | 一种基于图注意力对抗网络的社会化推荐方法及系统 | |
KR102615073B1 (ko) | 유사도 검색을 위한 신경 해싱 | |
Li et al. | High-dimensional interaction detection with false sign rate control | |
Wang et al. | Simple and Effective Relation-based Embedding Propagation for Knowledge Representation Learning | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN114841778B (zh) | 一种基于动态图神经网络的商品推荐方法 | |
Li et al. | An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices | |
CN113010687B (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
CN114972959A (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
TW202312030A (zh) | 配方建構系統、配方建構方法、內儲程式之電腦可讀取記錄媒體與非暫時性電腦程式產品 | |
Zhang et al. | Graph attention MLP with reliable label utilization | |
CN117972531B (zh) | 一种多样化的逆合成分析模型评价方法及装置 | |
CN108833173B (zh) | 丰富结构信息的深度网络表征方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |