CN114496105A

CN114496105A - 一种基于多语义网络的单步逆合成方法及系统

Info

Publication number: CN114496105A
Application number: CN202210080029.XA
Authority: CN
Inventors: 刘娟; 张蔷; 杨锋; 杨志辉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13
Anticipated expiration: 2042-01-24
Also published as: US20230238083A1; CN114496105B

Abstract

本发明提供了一种基于多语义网络的单步逆合成方法及系统，在进行单步逆合成预测的时，输入目标产物分子的ECFP4特征和SMILES词单热特征，经过多语义网络之后，以反应模板的形式输出该目标产物分子上可能发生的前k条反应。根据输出的反应模板，结合目标产物分子的SMILES字符串，最终计算得到目标产物分子所对应的反应物的SMILES字符串，实现单步逆合成预测。本发明是单步逆合成领域中第一个使用多语义融合网络来进行单步逆合成预测的，是基于模板的单步逆合成方法，预测结果具有较强的可解释性。网络除了对融合语义特征学习之外，还分别对ECFP4语义特征和SMILES词单热语义特征学习，从而增强了融合语义特征对分子的表达能力，进而提高了网络的预测结果精度。

Description

一种基于多语义网络的单步逆合成方法及系统

技术领域

本发明涉逆合成中的单步逆合成的分析领域，尤其涉及一种基于多语义网络的单步逆合成方法及系统，属于机器学习神经网络模型在单步逆合成领域中的应用。

背景技术

逆合成核心思想是：通过递归的方式将目标分子不断地分解成简单可用的“前体”分子，这些分子可以通过化学反应或者酶促反应得到，直到这些分子都是商业可以获得的或者出现在底盘生物菌株中。因此，根据分子反应类型的不同，可以将逆合成分为化学逆合成和生物逆合成两类。不完善的专业背景知识和巨大的搜索空间使得逆合成问题成为一个巨大的挑战。在这种情况下，计算机辅助逆合成路径设计方法逐渐开始部署并且有着巨大的发展潜力，同时为合成新的高价值分子带来了可能。

至今为止，化学逆合成的方法已经较为成熟，但是这些方法均未能考虑绿色化学的原则：所使用的原料、催化剂、溶剂和试剂、产物、副产物等容易对生态环境、社区安全产生危害。基于此，寻找一条绿色环保的逆合成路径受到了专家学者的广泛关注。21世纪初，生物逆合成这一概念首次被提出。生物逆合成将目标分子递归的分解成“前体”分子，并将反应限制在酶促反应上，直到最终的起始分子均为底盘生物菌株中的可用前体。相对于传统的化学逆合成的方法，生物逆合成更加的安全、环保、节约成本。

现有的逆合成方法都需要解决一个问题：单步逆合成问题，即基于中间体预测可能的反应物，通过优化单步逆合成进而优化整个逆合成路径设计。逆合成方法中对分子的描述主要有ECFP4(Extended Connectivity Fingerprints)向量和SMILES(SimplifiedMolecular Input Line Entry Specification)。首先，ECFP4向量表征反应发生的过程中所有官能团的计数，能表示官能团中原子之间的复杂关系，但无法表示原子之间的顺序关系。现有的基于ECFP4向量的逆合成方法主要是有模板的方法：即将逆合成问题转化成分子指纹到反应模板的一个分类问题。这些方法基于ECFP4向量的相似性来学习，或者用简单的神经网络来学习，导致无法充分学习到ECFP4向量有效信息。然后，分子SMILES字符串表示了一种原子之间的假设的顺序关系，但是它无法表示原子之间的复杂关系。基于分子SMILES字符串的逆合成方法多为无模板方法，将单步逆合成问题概括成一个序列的翻译问题，但是这类方法可解释性比较差。而且用于单步生物逆合成时，无法匹配酶信息。

由此可知，现有技术中的方法存在预测效果不佳的技术问题。

发明内容

本发明针对上述背景技术中提到的现有技术的不足，提出了多语义网络的单步逆合成方法及系统。该方法是一种基于模板的逆合成方法，将单步逆合成问题看成一个多分类问题，进而进行逆合成预测。

本发明采用的技术方案为：

第一方面提供了一种基于多语义网络的单步逆合成方法，包括：

S1：获取公开数据集，并进行预处理，得到预处理之后的数据集D，其中，数据集D中的每条数据对应一个特定的反应，每条数据包括反应、反应物分子和产物分子；

S2：利用RDChiral工具提取数据集D中所有数据中的反应模板，并去除重复的反应模板，获得最终的反应模板集合T；每个反应模板包含一个或者多个反应；

S3：根据数据集D中产物分子，分别得到用ECFP4向量表示的产物分子ECFP4特征集合E和用SMILES词单热矩阵表示的产物分子SMILES词单热特征集合S；

S4：构建样本集

其中e_i∈E、s_i∈S分别表示数据集D中第i条数据中产物分子的ECFP4特征和SMILES词单热特征，t_i∈T表示D中第i条数据中的反应模板，N表示样本集的个数；

S5：搭建多语义网络，包括输入层、卷积层、归一化层、激活层、池化层、dropout层、全连接层以及输出层，其中，卷积层用于对输入数据进行卷积，归一化层用于对卷积后的特征进行归一化处理，激活层用于对归一化处理后的特征进行激活操作，池化层分别对ECFP4特征和SMILES词单热特征进行池化操作，从而获得ECFP4语义特征和SMILES词单热语义特征；将ECFP4语义特征和SMILES词单热语义特征进行融合，获得融合语义特征；然后将融合语义特征经过dropout层、全连接层以及softmax，通过输出层得到最终输出结果；

S6：利用步骤S4的样本集对步骤S5中的多语义网络进行训练，得到训练好的单步逆合成预测模型；

S7：对一个待预测的目标产物分子，用步骤S6中训练好的单步逆合成预测模型预测能够生成该目标产物分子的反应模板。结合目标产物分子的SMILES字符串，利用RDChiral工具计算得到目标产物分子所对应的反应物分子的SMILES字符串，实现单步逆合成预测。

在一种实施方式中，步骤S2包括：

利用RDChiral工具提取数据集D中所有数据中的反应模板，并去除重复的反应模板，获得最终的反应模板集合T。

在一种实施方式中，步骤S3包括：

根据数据集D中产物分子，使用RDKit工具生成D中所有数据中的产物分子的ECFP4向量，得到用ECFP4向量表示的产物分子ECFP4特征集合E；使用sklearn工具生成D中所有数据中产物分子的SMILES词单热矩阵，得到用SMILES词单热矩阵表示的产物分子SMILES词单热特征集合S。

在一种实施方式中，使用sklearn工具生成D中所有数据中产物分子的SMILES词单热矩阵，得到用SMILES词单热矩阵表示的产物分子SMILES词单热特征集合S，包括：

S3.1：对构成SMILES字符串中字母表中的每个字符进行单热编码，生成维度为w₂的词向量；取每个产物分子SMILES字符串中前l₂个的字符的词向量组成SMILES词单热矩阵

如果产物分子SMILES字符串不足l₂个字符，则用0向量补齐；

S3.2：将矩阵

中每连续n行为一组，n行对应n个字符的词向量，将同一组中的词向量顺次拼接，得到一个长度为w₁的组合词向量，w₁＝n*w₂，一共得到l₁个组合词向量，

构成产物分子SMILES词单热特征

其中，w₂、l₂、n为正整数，n<l₂。

在一种实施方式中，S5中的多语义网络的输入层数量为1个，卷积层数量为k₁+k₂个，归一化层数量为k₁+k₂个，激活层数量为k₁+k₂个，池化层数量为k₁+k₂个，dropout层数量为2个，全连接层数量为3个，输出层数量为3个，k₁和k₂为正整数；

处理步骤包括：

S5.1：输入层包含两个节点，输入节点一输入ECFP4向量表示的ECFP4特征、输入节点二输入SMILES词单热矩阵表示的SMILES词单热特征；

S5.2：使用k₁个大小相同的卷积核对节点一输入的ECFP4特征进行卷积，k₁个卷积核的输出通道数均为c₁，得到卷积之后的ECFP4特征；

S5.3：使用k₂个大小不同的卷积核对节点二输入的SMILES词单热特征进行卷积，k₂个卷积核的输出通道数均为c₂，得到卷积之后的SMILES词单热特征；

S5.4：通过归一化层分别对S5.2卷积之后的特征和S5.3卷积后的特征进行归一化操作，得到归一化之后的ECFP4特征和SMILES词单热特征；

S5.5：通过激活层对归一化之后的ECFP4特征和SMILES词单热特征分别进行ReLU激活操作，得到激活之后的ECFP4特征和SMILES词单热特征；

S5.6：通过池化层对激活之后的ECFP4特征和SMILES词单热特征分别进行最大池化操作，得到池化操作之后的ECFP4特征和SMILES词单热特征；

S5.7：对最大池化之后ECFP4特征进行拼接，得到拼接之后的ECFP4语义特征、对最大池化之后SMILES词单热特征进行拼接，得到拼接之后的SMILES词单热语义特征以及将ECFP4语义特征和SMILES词单热语义特征进行拼接，得到融合语义特征；

S5.8：将融合语义特征送入一个全连接层，然后经过一个Softmax，输出每个节点的[0,1]之间的概率,记为p₁∈R^d，表示预测每类反应模板发生的概率；同时，分别将ECFP4语义特征和SMILES词单热语义特征经过dropout层、全连接层、Softmax，输出每个节点的[0,1]之间概率，分别记为p₂∈R^d和p₃∈R^d，分别表示根据ECFP4语义特征和SMILES词单热语义特征进行预测的每类反应模板发生的概率，d是反应模板集合T中反应模板的个数；

S5.9：通过输出层根据S5.8的结果得到最终预测结果。

在一种实施方式中，步骤S6在训练过程中，根据模型的三个分类结果，得到模型的三个交叉熵损失分别记为loss₁、loss₂和loss₃，单步逆合成预测模型的最终损失是：

loss＝α₁loss₁+α₂loss₂+α₃loss₃

其中，loss₁、loss₂、loss₃分别表示对融合语义特征预测的损失、对ECFP4语义特征预测的损失、对SMILES词单热语义特征预测的损失，α_j(j＝1,2,3)分别表示三个损失loss₁,loss₂和loss₃在网络全局损失loss中的权重，且有∑α_j＝1和α_j∈(0,1)。

基于同样的发明构思，本发明第二方面提供了一种基于多语义网络的单步逆合成系统，包括：

数据集预处理模块，用于获取公开数据集，并进行预处理，得到预处理之后的数据集D，其中，数据集D中的每条数据对应一个特定的反应，每条数据包括反应、反应物分子和产物分子；

反应模板集合构建模块，用于构建反应模板集合T；

特征构建模块，用于根据数据集D中目标产物分子，分别得到用ECFP4向量表示的产物分子的ECFP4集合E和用SMILES词单热矩阵表示的产物分子的SMILES词单热特征集合S；

样本集构建模块，用于构建样本集

多语义网络搭建模块，用于搭建多语义网络，包括输入层、卷积层、归一化层、激活层、池化层、dropout层、全连接层以及输出层，其中，卷积层用于对输入数据进行卷积，归一化层用于对卷积后的特征进行归一化处理，激活层用于对归一化处理后的特征进行激活操作，池化层分别对ECFP4特征和SMILES词单热特征进行池化操作，从获得ECFP4语义特征和SMILES词单热语义特征；将ECFP4语义特征和SMILES词单热语义特征进行融合，获得融合语义特征；然后将融合语义特征经过dropout层、全连接层以及softmax，通过输出层得到最终输出结果；

多语义网络训练模块，用于利用样本集构建模块的样本集对多语义网络搭建模块中的多语义网络进行训练，得到训练好的单步逆合成预测模型；

单步逆合成预测模块，用于对一个待预测的目标产物分子，用多语义网络训练模块中训练好的单步逆合成预测模型预测能够生成该目标产物分子的反应模板，再结合目标产物分子的SMILES字符串，最终计算得到目标产物分子所对应的反应物的SMILES字符串，实现单步逆合成预测。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的基于多语义网络的单步逆合成方法，搭建了多语义网络，输入层、卷积层、归一化层、激活层、池化层、dropout层、全连接层以及输出层，将目标产物分子的ECFP4特征和SMILES词单热特征作为输入，通过语义提取方法能够提取到目标产物分子的ECFP4特征和SMILES词单热特征的深层语义特征，相对于简单的神经网络的方式而言，可以充分学习到ECFP4特征和SMILES词单热特征的有效信息，并通过融合语义学习了二者之间的互补信息，从而可以改善预测的结果。并且，本发明采用的是基于模板的单步逆合成方法，预测结果具有较强的可解释性。此外，本发明的单步逆合成预测模型既可以用作单步化学逆合成预测又可以用作单步生物逆合成的预测，而且在进行单步生物逆合成预测的时候不需要进行酶信息的匹配操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中多语义网络的单步逆合成预测流程图；

图2为本发明实施例中SMILES词单热特征图；

图3为本发明实施例中多语义网络示意图；

图4为本发明实施例中多语义网络的单步逆合成系统模块示意图。

具体实施方式

本发明公开了一种多语义网络的单步逆合成的方法及系统，其中的方法在进行单步逆合成预测的时，输入目标产物分子的ECFP4特征和SMILES词单热特征，经过多语义网络之后，以反应模板的形式输出该目标产物分子上可能发生的前k条反应。根据输出的反应模板，结合目标产物分子SMILES字符串，最终可以计算得到目标产物分子所对应的反应物SMILES字符串，实现单步逆合成预测。本发明还提出一种多语义网络的单步逆合成系统，通过数据集预处理，反应模板集合构建，特征构建，样本集构建，多语义网络搭建，多语义网络训练，进行单步逆合成预测。

本发明提供的方法及系统，具有如下优点或者有益的技术效果：

本发明是单步逆合成领域中第一个使用多语义融合网络来进行单步逆合成预测的，是基于模板的单步逆合成方法，预测结果具有较强的可解释性。本发明设计了一种新的损失函数，能够提高模型的训练精度。本发明设计了一种语义提取方法，能够提取到目标产物分子的ECFP4特征和SMILES词单热特征的深层语义特征。本发明设计了一种SMILES词单热特征的构建方式，可以包含更多的潜在信息。本发明的单步逆合成预测模型既可以用作单步化学逆合成预测又可以用作单步生物逆合成的预测，而且在进行单步生物逆合成预测的时候不需要进行酶信息的匹配操作。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于多语义网络的单步逆合成方法，包括：

S1：获取公开数据集，并进行预处理，得到预处理之后的数据集D，其中，数据集D中的每条数据对应一个特定的反应，每条数据包括反应、反应物和目标产物分子；

S4：构建样本集

S7：对一个待预测的目标产物分子，用步骤S6中训练好的单步逆合成预测模型预测能够生成该目标产物分子的反应模板，再结合目标产物分子的SMILES字符串，利用RDChiral工具计算得到目标产物分子所对应的反应物分子的SMILES字符串，实现单步逆合成预测。

具体实施过程中，数据集D中每条数据具体包括：(1)用SMILES串表示的反应；(2)参与反应的所有反应物分子(用SMILES串表示。如果反应物分子不止1个，多个反应物的SMILES串之间用分隔符隔开)；(3)反应生成的1个产物分子(用SMILES串表示)；(4)催化酶的编号(仅针对代谢反应，且非必须)。如果原始公开数据集中的某个反应的产物分子有多个，则D中的存在多条相关数据，每条数据对应该反应的一个产物。

请参见图1，图1为本发明实例提供的多语义网络的单步逆合成预测的流程图。

步骤S7在进行待预测的目标产物分子的合成预测时，输入该待预测的目标产物分子ECFP4特征和SMILES词单热特征，通过单步逆合成预测模型以反应模板的形式输出该目标产物分子上可能发生的前k条反应。根据输出的反应模板，再结合目标产物分子的SMILES字符串，最终可以计算得到目标产物分子所对应的反应物的SMILES字符串，实现单步逆合成预测。

在一种实施方式中，步骤S2包括：

具体实施过程中，采用用RDChiral中的template_extractor函数(模板提取函数)提取SMARTS格式反应模板。

在一种实施方式中，步骤S3包括：

如果产物分子SMILES字符串不足l₂个字符，则用0向量补齐；

S3.2：将矩阵

构成产物分子SMILES词单热特征

其中，w₂、l₂、n为正整数，n<l₂。

具体来说，产物分子的SMILES词单热特征是0-1矩阵，矩阵的每一行代表产物分子SMILES字符串中连续n个字符的组合词向量表示。产物分子SMILES词单热特征按如下方法产生：首先，设数据集D中所有分子SMILES字符串的字母表共包含w₂个字母，对所有SMILES字符串中的每一个字符进行单热编码，生成长度为w₂的词向量。然后，将产物分子SMILES字符串中前l₂个字符都用词向量表示，不足l₂个字符的用0向量补齐，得到矩阵

最后，从第一行开始，将矩阵

中每连续n行(n个字符的词向量)顺次拼接为一个长度为w₁(w₁＝n*w₂)的组合词向量，一共得到l₁

个组合词向量，组合词向量构成的矩阵即为产物分子SMILES单热矩阵特征

其中，w₂、l₂、n为正整数，n<l₂。

具体实施过程中，产物分子ECFP4特征的长度是4096。产物分子SMILES词单热特征的维度是s∈{0,1}^75×120，是一种对产物分子SMILES字符串进行向量化表示的特征。其生成步骤包括：首先，对所有分子SMILES字符串中字符组成的字母表进行单热编码，生成维度40词向量。然后，对产物分子SMILES字符串中前225个字符都用词向量表示，不足225个字符的用0向量补齐，得到s₂∈{0,1}^225×40。最后，将s₂∈{0,1}^225×40每连续的3个字符的词向量拼接为一个组合词向量，最终得到产物词单热矩阵s∈{0,1}^75×120。

处理步骤包括：

S5.9：通过输出层根据S5.8的结果得到最终预测结果。

具体来说，语义是指卷积层，归一化层，激活层，池化层操作之后的更加抽象的特征。融合语义特征通过dropout层和全连接层后，经过一个Softmax，输出每个节点的[0,1]之间的概率,将这个概率记为p₁∈R^d，它表示根据融合语义特征预测每类反应模板发生的概率。同时，分别将ECFP4语义特征和SMILES词单热语义特征经过dropout层、全连接层，然后通过Softmax，也输出每个节点的[0,1]之间概率，分别记为p₂∈R^d和p₃∈R^d，分别表示ECFP4语义特征和SMILES词单热语义特征进行预测的每类反应模板发生的概率。

p₁是最后网络的输出结果，指对根据融合语义特征预测的每类模板发生的概率。由于融合语义特征是指由ECFP4语义特征和SMILES词单热语义特征拼接得到的。而对ECFP4语义特征和词单热语义特征分别进行学习得到的每类模板发生的概率p₂,p₃。这样在模型的训练中可以通过加强网络对ECFP4语义特征和SMILES词单热语义特征学习的能力，进而获得更加抽象的ECFP4语义特征和SMILES词单热语义特征。将两者拼接进而获得更加抽象的融合语义特征。也就是说，网络除了对融合语义特征学习，而且还分别对ECFP4语义特征和SMILES词单热语义特征学习。这样可以增强ECFP4特征和SMILES词单热语义特征对分子的表达能力，同时也增强了融合语义特征对分子的表达能力，进而可以提高网络的预测结果精度。

请参见图2，图2为本发明SMILES词单热特征图。Product Molecule为产物分子，One-Hot-Encoding为单热编码，SMILES String为目标产物分子SMIELS字符串，WordVector为词向量，Composition of Word Vector为组合词向量，One-Hot encoding of theSMILES String为SMILES字符串单热编码之后特征，SMILES Word One-Hot Feature为词单热特征。

具体实施例中，步骤S5中，多语义网络包括输入层(1个)，卷积层(6个)，归一化层(6个)，激活层(6个)，池化层(6个)，dropout层(2个)，全连接层(3个)，输出层(3个)。

请参见图3，图3为本发明多语义网络示意图。Target Product Molecule表示目标产物分子，ECFP4 Feature和SMILES Word One Hot Feature分别表示目标产物分子ECFP4特征和SMILES词单热特征。Convolution+BN+ReLU表示卷积、归一化以及激活操作，Subsampling表示下采样，Concatenation表示拼接，Fully connected表示全连接。

步骤S5.2使用3个大小1×4096的卷积核对节点一输入的ECFP4t特征进行卷积，3个卷积核的输出通道数均为100，得到卷积之后的ECFP4特征。步骤S5.3使用3个大小为3×120，4×120，5×120的卷积核对节点二输入的SMILES词单热矩阵进行卷积，3个卷积核的输出通道数均为100，得到卷积之后的SMILES词单热矩阵特征。

S5.5中的ReLU激活函数为：

f(x)＝max(0,x)

其中，x表示神经元的输入，能将所有的负值都变为0，而正值不变，这种单侧抑制功能能使神经网络中的神经元具有稀疏激活性。

S5.8中，Softmax函数，具体定义为：

其中，e为自然常数，∑_je^j表示所有神经元以e为底数以该神经元为指数的幂之和，S_i表示第i个神经元经过Softmax后的结果。

loss＝α₁loss₁+α₂loss₂+α₃loss₃

具体来说，损失函数表示计算结果与真实值的差距，本实施例提出了一种新的损失函数，由原本只对融合语义学习得到分类结果(分类概率P₁)评估，增加了对ECFP4语义特征和SMILES词单热语义特征分类结果(分类概率P₂和P₃)评估。是通过用权重α₁、α₂、α₃对整个模型进行全面评估，进而提高模型的训练精度。α_j的取值为(0，1)之间的小数，不取端点0和1。

具体实施过程中，模型采用Adam优化器，模型训练时，根据步骤S5的三个输出结果，分别计算三个交叉熵损失，

交叉熵损失函数loss_j(j＝1,2,3)的具体形式如下：

其中，d为标签的总数，即为反应模板集T的大小；y_i,c一个二进制标识符，表示样本i的真实标签是否为c，即预测的样本i的规则是否与真实规则c相同，当样本i的真实标签与c相同时取1，否则取0；p_j,i,c表示网络对样本i的标签为c的第j个输出概率，即网络预测的样本i的规则为c的第j个输出概率。

在具体实施例中，步骤S6，模型训练轮数(epoch)设置为100，在每轮中进行多次迭代直到所有训练样本均参与一次训练，参与一次迭代的训练样本数目batch_size设置值为128。初始学习率为设置为0.001。

下面通过具体示例对本发明提出的方法进行说明与验证。

示例1：对可公开获得的化学反应数据集USPTO-50k按照步骤S1进行预处理；按照步骤S2构建反应模板集合；按照步骤S3构建ECFP4特征和SMILES词单热特征；按照步骤S4构建集合G,并将其按照8:1:1的比例进行随机划分训练集、验证集、测试集。其中训练集和验证集用来训练和选择模型，测试集用来进行训练之后的单步逆合成预测模型进行预测。其中的训练集和验证集训练模型，测试集对训练得到的单步化学逆合成预测模型的预测精度进行测试。表1展示了本发明所提出多语义网络的单步逆合成预测方法在单步化学逆合成的预测性能。目前该领域最好的实验结果的top-1，top-3，top-5以及top-10的预测精度是52.5％，69.0％，75.6％以及83.7％。显然，基于本发明的到的模型的预测精度显著高于目前该领域的最好结果。

表1：多语义网络的单步化学逆合成预测性能

Top-1	Top-3	Top-5	Top-10
				61.8％	80.6％	85.1％	89.5％

示例2:对可公开获得的代谢反应数据集MetaNetX按照步骤S1进行预处理；按照步骤S2构建反应模板集合；按照步骤S3构建ECFP4特征和SMILES词单热特征；按照步骤S4构建集合G,并将其按照8:1:1的比例进行随机划分训练集、验证集、测试集。其中训练集和验证集用来训练和选择模型，测试集用来进行训练之后的单步逆合成预测模型进行预测。其中的训练集和验证集训练模型，测试集对训练得到的单步生物逆合成预测模型的预测精度进行测试。表2展示了本发明所提出多语义网络的单步逆合成预测方法在单步生物逆合成的预测性能。现有的有关单步生物逆合成的研究较少，本发明的模型能够进行单步生物逆合成预测不需要进行匹配酶信息。

表2：多语义网络的单步生物逆合成预测性能

与现有技术相比较，本发明的有益效果在于：

1.本发明是单步逆合成领域中第一个使用多语义融合网络来进行单步逆合成预测的，是基于模板的单步逆合成方法，预测结果具有较强的可解释性。

2.本发明设计了一种新的损失函数，通过对多语义网络学习的三个预测结果进行全面评估，进而能够提高模型的训练精度。

3.本发明设计了一种语义提取方法，能够提取到目标产物分子的ECFP4特征和SMILES词单热特征的深层语义信息。

4.本发明设计了一种SMILES词单热特征的构建方式，可以包含更多的潜在信息。

5.本发明的单步逆合成预测模型既可以用作单步化学逆合成预测又可以用作单步生物逆合成的预测，而且在进行单步生物逆合成预测的时候不需要进行酶信息的匹配操作。

实施例二

基于同样的发明构思，本实施例提供了一种基于多语义网络的单步逆合成系统，包括：

反应模板集合构建模块，用于构建反应模板集合T；

特征构建模块，用于根据数据集D中目标产物分子，分别得到用ECFP4向量表示的产物分子的ECFP4特征集合E和用SMILES词单热矩阵表示的产物分子的SMILES词单热特征集合S；

样本集构建模块，用于构建样本集

多语义网络搭建模块，用于搭建多语义网络，包括输入层、卷积层、归一化层、激活层、池化层、dropout层、全连接层以及输出层，其中，卷积层用于对输入数据进行卷积，归一化层用于对卷积后的特征进行归一化处理，激活层用于对归一化处理后的特征进行激活操作，池化层分别对ECFP4特征和SMILES词单热特征进行池化操作，从而获得ECFP4语义特征和SMILES词单热语义特征；将ECFP4语义特征和SMILES词单热语义特征进行融合，获得融合语义特征；然后将融合语义特征经过dropout层、全连接层以及softmax，通过输出层得到最终输出结果；

单步逆合成预测模块，用于对一个待预测的目标产物分子，用多语义网络训练模块中训练好的单步逆合成预测模型预测能够生成该目标产物分子的反应模板，再结合目标产物分子的SMILES字符串，利用RDChiral工具计算得到目标产物分子所对应的反应物分子的SMILES字符串，实现单步逆合成预测。

请参见图4，是本发明实施例中多语义网络的单步逆合成系统的模块示意图。

总体来说，数据集预处理模块：对数据集进行预处理，得到处理之后的数据集合；反应模板集合构建模块：基于预处理之后的数据集，生成反应模板集合；特征构建模块：根据产物分子生成产物分子ECFP4特征和SMILES词单热特征。样本集构建模块：生成由ECFP4特征和SMILES词单热特征，反应模板组成的样本集；多语义网络搭建模块：搭建多语义网络，用来进行单步逆合成预测；多语义网络训练模块：用样本集中的数据对多语义网络进行训练，得到训练后的多语义网络单步逆合成预测模型。单步逆合成预测模块：用多语义网络模型对新的目标产物分子进行单步进行逆合成预测。

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于多语义网络的单步逆合成方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该系统的具体结构，在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多语义网络的单步逆合成方法，其特征在于，包括：

S4：构建样本集

2.如权利要求1所述的单步逆合成方法，其特征在于，步骤S3包括：

3.如权利要求2所述的单步逆合成方法，其特征在于，使用sklearn工具生成D中所有数据中产物分子的SMILES词单热矩阵，得到用SMILES词单热矩阵表示的产物分子SMILES词单热特征集合S，包括如下步骤：

如果产物分子SMILES字符串不足l₂个字符，则用0向量补齐；

S3.2：将矩阵

构成产物分子SMILES词单热特征

其中，w₂、l₂、n为正整数，n<l₂。

4.如权利要求1所述的单步逆合成方法，其特征在于，S5中的多语义网络的输入层数量为1个，卷积层数量为k₁+k₂个，归一化层数量为k₁+k₂个，激活层数量为k₁+k₂个，池化层数量为k₁+k₂个，dropout层数量为2个，全连接层数量为3个，输出层数量为3个，k₁和k₂为正整数；

处理步骤包括：

S5.9：通过输出层根据S5.8的结果得到最终预测结果。

5.如权利要1所述的单步逆合成方法，其特征在于，步骤S6在训练过程中，根据模型的三个分类结果，得到模型的三个交叉熵损失分别记为loss₁、loss₂和loss₃，单步逆合成预测模型的最终损失是：

loss＝α₁loss₁+α₂loss₂+α₃loss₃

6.一种基于多语义网络的单步逆合成系统，其特征在于，包括：

反应模板集合构建模块，用于构建反应模板集合T；

特征构建模块，用于根据数据集D中产物分子，分别得到用ECFP4向量表示的产物分子的ECFP4特征集合E和用SMILES词单热矩阵表示的产物分子的SMILES词单热特征集合S；

样本集构建模块，用于构建样本集

多语义网络训练模块，用于利用样本集构建模块的样本集对多语义网络搭建模块中的多语义网络进行训练，得到训练好的单步逆合成预测模型；单步逆合成预测模块，用于对一个待预测的目标产物分子，用多语义网络训练模块中训练好的单步逆合成预测模型预测能够生成该目标产物分子的反应，再结合目标产物分子的SMILES字符串，最终计算得到目标产物分子所对应的反应物的SMILES字符串，实现单步逆合成预测。