CN117153294B

CN117153294B - 一种单一体系的分子生成方法

Info

Publication number: CN117153294B
Application number: CN202311422597.4A
Authority: CN
Inventors: 张�浩; 李中伟; 祝艺玮; 鲍雨; 谢爱锋
Original assignee: Yantai Guogong Intelligent Technology Co ltd
Current assignee: Yantai Guogong Intelligent Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-26
Anticipated expiration: 2043-10-31
Also published as: CN117153294A

Abstract

本发明公开了一种单一体系的分子生成方法，属于深度学习及分子生成技术领域，要解决的技术问题为如何准确高效的生成分子。包括如下步骤：基于目标分子和相似分子组成分子数据集，分子数据集中分子由SMILES表达式组成；从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔，并以预处理后的分子SMILES表达式作为样本构建样本数据集；构建分子生成模型，并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练；基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，得到最终分子生成模型，通过最终分子生成模型预测输出分子SMILES表达式中每个元素。

Description

一种单一体系的分子生成方法

技术领域

本发明涉及深度学习技术领域，具体地说是一种单一体系的分子生成方法。

背景技术

在化学研发领域，关于如何去设计、生成新的分子，一直以来都在不断困扰着相关的研发人员。虽然在各自领域中，研发人员都是带着各自的约束条件来设计分子，但是面对庞大化学空间，研发专家也会面临重重困难。只能通过通过文献查询，来获取蛛丝马迹。随着深度学习技术不断发展，AI+化学的研发手段也变得越来越重要。借助深度学习技术的分子生成课题也变得越来越成熟。随着各研发工厂的信息化程度越来越高，相应的分子结构数据也得到了大量的积累，这也给分子生成的课题带来极大助益。

如何准确高效的生成分子，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种单一体系的分子生成方法，来解决如何准确高效的生成分子的问题。

第一方面，本发明一种单一体系的分子生成方法，包括如下步骤：

以目标单一体系的分子为目标分子，基于分子结构相似度、从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子，基于目标分子和相似分子组成分子数据集，分子数据集中分子由SMILES表达式组成；

对于分子数据集中每个分子，对分子进行预处理，从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔，并以预处理后的分子SMILES表达式作为样本构建样本数据集；

构建分子生成模型，并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练，得到训练后分子生成模型，所述分子生成模型为含有双通道注意力机制的Transformer模型，训练后分子生成模型用于预测输出分子SMILES表达式中每个元素以及元素概率值；

对于目标分子，对分子进行预处理，从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔，并以预处理后的分子SMILES表达式作为样本构建微调数据集；

基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，得到最终分子生成模型，通过最终分子生成模型预测输出目标单一体系下分子SMILES表达式中每个元素以及元素概率值；

对于预测输出的目标单一体系下分子SMILES表达式，通过人工验证的方式对每个分子进行验证筛选。

作为优选，通过正则化方法从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔。

作为优选，所述分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层，编码器和解码器的多头注意力机制模块中均配置有双通道；

基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练时，执行如下操作：

将预处理后的分子SMILES表达式输入输入层；

以预处理后的分子SMILES表达式为输入，通过嵌入层进行元素提取，输出元素向量；

以预处后的分子SMILES表达式为输入，通过位置编码层计算元素在分子SMILES表达式中的位置，得到元素位置向量，并将元素位置向量和元素向量相加，得到元素矩阵作为输入矩阵；

将输入矩阵输入编码器，基于多头注意力机制模块中双通道进行编码计算，得到编码后元素向量；

将编码后元素向量输入解码器，基于多头注意力机制模块中双通道进行解码计算，并与softmax层和全连接层配合预测输出分子SMILES表达式中每个元素以及元素概率值；

将输入矩阵中元素作为真实值，将解码器预测输出的元素作为预测值，基于真实值和预测值之间的loss值构建损失函数，通过反向传播算法对分子生成模型的参数进行更新，得到分子生成模型的最终参数文件，基于参数文件构建的分子生成模型，以解码器、softmax层和全连接层组成的网络结构作为训练后分子生成模型；

其中，将编码后元素向量输入解码器，基于多头注意力机制中双通道进行解码计算时，对输入的编码后元素向量进行遮蔽处理，对于当前被预测的第n个元素，将解码器中第一个多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替。

作为优选，通过位置编码层计算元素在分子SMILES表达式中的位置时，位置编码计算公式为：

，

其中，为元素所在分子SMILES表达式中的位置，/>为元素向量的维度，/>为元素向量的位置。

作为优选，基于多头注意力机制模块中双通道进行编码计算时，计算公式如下：

，

其中，Q、K、V三个变量分别表示query、 key 和value向量矩阵，则表示key向量矩阵的维度；

其中一个通道通过atten1获取分子中元素之间相似性信息，另一个通道通过atten2获取分子中元素之间差异性信息。

作为优选，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时，将训练后分子生成模型中的解码器的参数冻结，对训练后分子生成模型中softmax层和全连接层的参数进行微调。

作为优选，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，包括如下步骤：

通过训练后分子生成模型预测生成多个分子的分子SMILES表达式；

基于预配置的评分规则、从有效性和单一体系相似性对生成的分子进行评价，得到评分；

将评分作为训练后分子生成模型的奖励，将评分和训练后分子生成模型的损失值进行融合得到奖励损失函数，通过反向传播算法对训练后分子生成模型的权重进行更新，得到最终分子生成模型；

构建奖励损失，对训练后分子生成模型进行模型权重的训练，奖励损失计算公式如下：

，

其中，表示训练后分子生成模型的loss值，/>用于更新训练后分子生成模型的权重，validity表示生成分子的分子SMILES表达式的有效性，similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性；

对于训练后分子生成模型预测输出的分子SMILES表达式，对应的值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。

本发明的一种单一体系的分子生成方法具有以下优点：

1、将待生成的分子作为目标分子，结合目标分子和与目标分子结构相近的近似分子构建样本数据集，实现了样本的多样性，基于该样本数据集对构建的分子生成模型进行模型训练，提高了模型的准确性；

2、构建的分子生成模型为含有双通道注意力机制的Transformer模型，该模型的解码器和编码器中通过双通道进行编码和解码计算，两个通道配合，其中一个通道进行相似性计算，另一个通道进行差异性计算，通过不同的注意力通道来获取分子SMILES式中原子与原子之间的联系，提高了模型预测的准确性；

3、对于训练后的分子生成模型，以目标分子作为微调数据集，基于微调数据集、通过强化学习算法对训练后的分子生成模型进行权重训练，强化学习主要通过奖励机制帮助模型有效的学习到该体系分子中每个原子的概率分布，以及该体系原子与原子的相互关联，通过小量单体系数据集对预训练模型进行微调，有助于模型能够学习到该体系分子的合理结构，大幅提高了分子生成的成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例一种单一体系的分子生成方法的流程框图；

图2为实施例一种单一体系的分子生成方法中二苯甲烷2D结构图；

图3为实施例一种单一体系的分子生成方法中双通道注意力机制的原理示意图；

图4为实施例一种单一体系的分子生成方法中强化学习的原理框图；

其中，softmax层通过softmax激活函数将一个数值向量归一化为一个概率分布向量，且各个概率之和为1；

Q、K、V三个变量分别表示query、 key 和value向量矩阵。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供一种单一体系的分子生成方法，用于解决如何准确高效的生成分子的技术问题。

实施例1：

本发明一种单一体系的分子生成方法，如图1所示包括如下步骤：

S100、以目标单一体系的分子为目标分子，基于分子结构相似度、从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子，基于目标分子和相似分子组成分子数据集，分子数据集中分子由SMILES表达式组成；

S200、对于分子数据集中每个分子，对分子进行预处理，从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔，并以预处理后的分子SMILES表达式作为样本构建样本数据集；

S300、构建分子生成模型，并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练，得到训练后分子生成模型，所述分子生成模型为含有双通道注意力机制的Transformer模型，训练后分子生成模型用于预测输出分子SMILES表达式中每个元素以及元素概率值；

S400、对于目标分子，对分子进行预处理，从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔，并以预处理后的分子SMILES表达式作为样本构建微调数据集；

S500、基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，得到最终分子生成模型，通过最终分子生成模型预测输出目标单一体系下分子SMILES表达式中每个元素以及元素概率值；

S600、对于预测输出的目标单一体系下分子SMILES表达式，通过人工验证的方式对每个分子进行验证筛选。

本实施例步骤S100获取样本数据集。针对要生成的分子，首先确定要探索分子的结构体系，例如二苯甲烷SMILES式为c1ccc(Cc2ccccc2)cc1，2D结果如图2所示，同一分子体系指的是保持两侧苯环不变的情况下，只在中间碳的位置进行结构的改变。

然后将要探索分子为目标分子，检索与目标分子结构相似的分子作为相似分子。该检索过程中，首先通过历史文献找到已有的该体系结构，构成一个小型体系数据库A；然后通过大型化合物分子结构数据库pubchem对该体系数据库中的分子进行检索，利用数据库pubchem中的分子结构相似度选项进行设定，将得到的分子SMILES数据进行去重，即可得到几十万的分子数据库B。该数据即可满足预训练模型的需求。

步骤S200对样本数据集进行数据预处理。作为数据预处理具体实施，采用正则化的方法对分子SMILES表达式进行数据处理。正则化规则：对输入的分子SMILE表达式筛选出分子所包含的元素，然后元素之间用空格分割，得到正则化处理结果，即：满足模型的输入规则的数据。

结果示例如下: C C 1 = C C = C ( C = C 1 ) Cl。

步骤S300为分子生成模型的构建和训练。本实施例构建的分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层，编码器和解码器的多头注意力机制模块中均配置有双通道。

作为模型训练的具体实施，基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练时，执行如下操作：

（1）将预处理后的分子SMILES表达式输入输入层；

（2）以预处理后的分子SMILES表达式为输入，通过嵌入层进行元素提取，输出元素向量；

（3）以预处后的分子SMILES表达式为输入，通过位置编码层计算元素在分子SMILES表达式中的位置，得到元素位置向量，并将元素位置向量和元素向量相加，得到元素矩阵作为输入矩阵；

（4）将输入矩阵输入编码器，基于多头注意力机制模块中双通道进行编码计算，得到编码后元素向量；

（5）将编码后元素向量输入解码器，基于多头注意力机制模块中双通道进行解码计算，并与softmax层和全连接层配合预测输出分子SMILES表达式中每个元素以及元素概率值；

（6）将输入矩阵中元素作为真实值，将解码器预测输出的元素作为预测值，基于真实值和预测值之间的loss值构建损失函数，通过反向传播算法对分子生成模型的参数进行更新，得到分子生成模型的最终参数文件，基于参数文件构建的分子生成模型，以解码器、softmax层和全连接层组成的网络结构作为训练后分子生成模型。

其中，通过位置编码层计算元素在分子SMILES表达式中的位置时，位置编码计算公式为：

（1），

如图3所示，基于多头注意力机制模块中双通道进行编码计算时，计算公式如下：

（2），

（3），

其中，Q、K、V三个变量分别表示query、 key 和value向量矩阵，则表示key向量矩阵的维度。其中一个通道通过atten1获取分子中元素之间相似性信息，另一个通道通过atten2获取分子中元素之间差异性信息。

本实施例搭建一个含有双通道注意力机制的Transformer的模型，与传统的双通道注意力机制不同，这两个注意力机制模块分别从输入序列中获取不同信息。模型训练过程中采用的Next Token Prediction的训练任务。其主要过程如下：将编码后的分子SMILES表达式的矩阵输入到编码器的多头注意力模块处理得到其编码表示；然后将其输入到解码器中，而解码器主要工作则是对该分子SMILES表达式进行每个元素进行预测，为了防止信息泄露，需要对当前元素到元素结尾进行遮蔽处理；最后采用交叉熵损失函数计算预测输出的元素与真实分子SMILES表达式中元素之间的loss值，采用反向传播算法对网络模型参数进行更新；经过多轮训练之后，当loss值趋于稳定，进行模型参数prior_model存储，训练完成。

遮蔽处理规则：假设当前预测第n个元素，则将解码器第一个模块中第n个元素之后向量使用Mask字符进行代替。主要原因在于防止在预测过程中造成信息泄露，而使用Mask代替有效的防止信息提前透露给解码器。

在模型训练执行过程中，模型参数的设定如下：多头注意力层的头数设定为8，优化器使用的自适应调整的Adam，采用warm启动方式参数设定为500，损失函数使用的是交叉熵损失函数，batch_size为256，dropout为0.1，序列最大长度设置为140。

步骤S400对目标分子构成的微调数据集进行数据预处理，其处理方式与步骤S200对于样本数据集的处理一致。在具体执行过程中，步骤S200和步骤S400可同时执行。

步骤S500对训练后的分子生成模型进行微调。本实施例中，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时，将训练后分子生成模型中的解码器的参数冻结，对训练后分子生成模型中softmax层和全连接层的参数进行微调。

如图4所示，作为微调的具体实施，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，包括如下步骤：

（1）通过训练后分子生成模型预测生成多个分子的分子SMILES表达式；

（2）基于预配置的评分规则、从有效性和单一体系相似性对生成的分子进行评价，得到评分；

（3）将评分作为训练后分子生成模型的奖励，将评分和训练后分子生成模型的损失值进行融合得到奖励损失函数，通过反向传播算法对训练后分子生成模型的权重进行更新，得到最终分子生成模型；

（4）构建奖励损失，对训练后分子生成模型进行模型权重的训练，奖励损失计算公式如下：

（4），

（5），

其中，表示训练后分子生成模型的loss值，/>用于更新训练后分子生成模型的权重，validity表示生成分子的分子SMILES表达式的有效性，similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性。

Validity可有rdkit工具包直接得到、similarity可以通过余弦相似性计算，对于训练后分子生成模型预测输出的分子SMILES表达式，对应的值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。例如，训练后分子生成模型生成了一个含有三个元素的CCCl分子，该模型需要从左到右依次预测第一个元素C的概率为0.92，第二个元素C的概率0.9第三个元素Cl的概率为0.88，则 loss=（0.92+0.9+0.88）/3 。此loss计算方式为生成模型常用方法。

本实施例该步骤冻结训练后分子生成模型的核心层（解码器），仅保留softmax层以及全连接层。将数据库A（目标分子的分子SMILES表达式构成）中的数据集作为训练集对模型进行微调，当loss趋于稳定之后，进行模型参数finetune_model的存储。该操作中，模型微调是模型借助数据库A中的分子数据来帮助模型学习该体系分子元素的分布概率，以便在强化学习模块中，能够尽量多的产生符合该体系分子，以便于强化学习模块快速收敛。

在具体实施过程中，首先设定模型训练参数与步骤S300分子生成模型训练时保持一致，设定step为500，通过batchsize为128控制模型每次生成的SMILES的数量为128个。然后载入模型finetune_model生成128个分子的分子SMILES表达式；然后利用评分规则对该批次的分子SMILES，从有效性和体系相似性进行评分；最后，将评分score与模型p11进行融合，loss的融合机制公式（5）所示，然后通过反向传播对模型的权重进行更新，基于以上一个训练周期，进行多轮次训练直至训练完成。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种单一体系的分子生成方法，其特征在于，包括如下步骤：

对于预测输出的目标单一体系下分子SMILES表达式，通过人工验证的方式对每个分子进行验证筛选；

所述分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层，编码器和解码器的多头注意力机制模块中均配置有双通道；

将预处理后的分子SMILES表达式输入输入层；

将编码后元素向量输入解码器，基于多头注意力机制模块中双通道进行解码计算，并与softmax层和全连接层预测输出分子SMILES表达式中每个元素以及元素概率值；

其中，将编码后元素向量输入解码器，基于多头注意力机制中双通道进行解码计算时，对输入的编码后元素向量进行遮蔽处理，对于当前被预测的第n个元素，将解码器中第一个多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替；

基于多头注意力机制模块中双通道进行编码计算时，计算公式如下：

其中，Q、K、V三个变量分别表示query、key和value向量矩阵，d_k则表示key向量矩阵的维度；

2.根据权利要求1所述的单一体系的分子生成方法，其特征在于，通过正则化方法从SMILES表达式中筛选出分子包含的元素，元素之间通过空格间隔。

3.根据权利要求1所述的单一体系的分子生成方法，其特征在于，通过位置编码层计算元素在分子SMILES表达式中的位置时，位置编码计算公式为：

其中，pos为元素所在分子SMILES表达式中的位置，d为元素向量的维度，i为元素向量的位置。

4.根据权利要求3所述的单一体系的分子生成方法，其特征在于，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时，将训练后分子生成模型中的解码器的参数冻结，对训练后分子生成模型中softmax层和全连接层的参数进行微调。

5.根据权利要求1所述的单一体系的分子生成方法，其特征在于，基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整，包括如下步骤：

loss_reward＝score*loss_model，

其中，loss_model表示训练后分子生成模型的loss值，loss_reward用于更新训练后分子生成模型的权重，validity表示生成分子的分子SMILES表达式的有效性，similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性；

对于训练后分子生成模型预测输出的分子SMILES表达式，对应的loss_model值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。