CN117238436A

CN117238436A - 用于药物分子分析设计的模型预训练方法及装置

Info

Publication number: CN117238436A
Application number: CN202311220477.6A
Authority: CN
Inventors: 顾忠泽; 于文龙; 丁彦
Original assignee: Jiangsu Institute Of Sports Health
Current assignee: Jiangsu Institute Of Sports Health
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-15

Abstract

本发明涉及一种用于药物分子分析设计的模型预训练方法及装置，包括：从数据库中获取药物分子数据，获得多个训练样本，将[药物分子SMILES序列，变种子结构SMILES序列]构成的分子对作为一个训练样本；先后以MLM任务、MAG任务对模型进行预训练；模型使用Atom标识器与SmilesPE标识器结合的编码方法，以提升模型对药物分子结构的表示学习能力；设置多个下游任务包括属性预测、从头分子生成、目标生成和分子优化，对预训练模型进行评估。本发明实现了学习分子的高效表示、提升模型的分子生成能力和模型泛化能力。

Description

用于药物分子分析设计的模型预训练方法及装置

技术领域

本发明涉及基于计算机技术的药物分子分析设计技术领域，尤其是一种用于药物分子分析设计的模型预训练方法及装置。

背景技术

药物分子预训练是指使用大规模未标记的药物分子数据预先训练深度神经网络(DNNs)或其他机器学习模型的过程。这种预训练的目的是为了学习药物分子的有效表示，以便在特定的药物相关任务中进行后续微调或应用。这种方法可以加速药物设计、药物属性预测和药物发现等生物化学领域的研究。预训练模型通常使用大规模的未标记分子数据集，这些数据包含了各种各样的药物分子的结构和属性信息。通过训练模型来捕获这些数据中的潜在模式和特征，预训练模型可以获得对药物分子的高度抽象的表示。然后，这些预训练的模型可以在特定的任务上进行微调，例如药物分子属性预测、药物筛选或药物相互作用分析。药物分子预训练模型的发展已经在药物研究领域产生了显著的影响，它们有助于加速新药物的发现和设计过程，同时降低了实验室成本。这些模型的研究也在不断发展，以解决相关任务的挑战，并提高在药物领域的应用效果。

近几年出现很多药物分子预训练模型，包括SMILESBERT、ChemBERTa、Molformer等。然而，目前的药物分子预训练模型往往采用Encoder-Only架构，根据其特性仅可将该模型作为药物分子的编码器使用。但在实际的微调生成任务中，往往需要通过输入分子结构、条件等，生成我们所需的分子结构，Encoder架构并不适用该类任务。另外，在预训练阶段常常使用单一的掩码语言建模任务(Masked Language Model，MLM)来训练预训练模型，在自然语言处理中，这是一个常见的任务，即文本中的某些词汇或标记被部分遮盖或替换为特殊的掩码标记(通常是[MASK]标记)，而模型的目标是尝试恢复或预测被掩盖的词汇或标记。该任务的主要目的是通过强迫模型理解上下文信息来提高语言理解和生成任务的性能。模型需要根据上下文和已知的信息来填充掩码位置，这有助于模型学习单词之间的语义关系和依赖性。但由于缺乏能够模拟生成任务的自回归生成功能，不适用于生成式任务，对专业领域数据、长文本数据，需要更多的上下文信息来正确预测被掩码的标记，因此在药物分子分析设计领域，采用单一的掩码语言建模任务进行预训练会导致模型建立面临很大的挑战。

发明内容

针对现有技术的不足，本发明提供一种用于药物分子分析设计的模型预训练方法及装置，目的是实现了学习分子的高效表示、提升模型的分子生成能力和模型泛化能力。

本发明采用的技术方案如下：

本发明提供一种用于药物分子分析设计的模型预训练方法，包括：

制作预训练数据集：

从数据库中获取药物分子数据，使用RDkit工具包将某一个药物分子SMILES序列转化为一个分子对象，选取一个原子作为根原子，在所述分子对象中以原子索引的方式生成一个以所述根原子为中心的变种子结构SMILES序列，将[药物分子SMILES序列，变种子结构SMILES序列]构成的分子对作为一个训练样本，通过选取不同的根原子，可获得不同的子结构SMILES序列，由此获得多个训练样本；

以两阶段预训练任务训练获得预训练模型：

首先以MLM任务即掩码语言建模任务为第一阶段预训练任务，使模型建立部分token替换为掩码标记的药物分子SMILES序列和所述掩码标记对应的token之间的映射关系；

其次以MAG任务即分子变种结构生成任务为第二阶段预训练任务，使模型建立原始的药物分子SMILES序列和变种子结构SMILES序列之间的映射关系；

预训练模型使用Atom标识器与SmilesPE标识器结合的编码方法，以提升模型对药物分子结构的表示学习能力；

设置多个下游任务包括属性预测、从头分子生成、目标生成和分子优化，对预训练模型进行评估，根据各下游任务完成情况采用对应的评估指标进行评估，根据评估情况调整模型及训练参数，直至预训练模型对于各下游任务的完成情况均达到设定标准。

进一步技术方案为：

所述使用Atom标识器与SmilesPE标识器结合的编码方法，包括：

利用Atom标识器将药物分子SMILES序列拆分为原子级别token序列，然后输入Atom Embedding模块，将所述原子级别token序列映射成第一向量；

利用SmilesPE标识器将药物分子SMILES序列拆分为子结构级别的token序列，然后输入SmilesPE Embedding模块，将所述子结构级别token序列映射成第二向量；

将第一向量和第二向量融合，作为模型的输入。

所述将第一向量和第二向量融合，包括：

按照第一向量的长度，复制第二向量的每一个元素并拼接到该元素之后，获得更新的第二向量，从而使所述更新的第二向量的长度与第一向量长度相同，然后再将第一向量与更新的第二向量相加。

所述预训练模型采用Encoder-Decoder的Transformer架构，利用Encoder将输入序列编码成固定长度的上下文向量或隐藏状态，以捕捉输入序列的信息和语义，利用Decoder从上下文编码中生成输出序列，使得模型能够生成与输入序列相关的文本或序列。

对于第一阶段预训练任务，使用Bart模型的掩码方式，将掩码后的药物分子SMILES序列作为Encoder的输入，Encoder输出的分子结构上下文信息输入Decoder；将药物分子SMILES序列第一位拼接标识符[bos]后作为Decoder的输入，Decoder输出去除掩码的药物分子SMILES序列，即获得掩码标记对应的token；

训练过程中，Encoder将药物分子SMILES序列末尾拼接标识符[eos]，作为真实标签与模型输出做损失计算。

对于第二阶段预训练任务，将药物分子SMILES序列作为Encoder的输入，Encoder输出的分子结构上下文信息输入Decoder；将变种子结构SMILES序列作为Decoder的输入，Decoder输出该变种子结构SMILES。

利用属性预测任务对预训练模型进行评估，包括：

使用MoleculeNet的三个药物分子属性数据集Lipophilicity、ESOL和FreeSolv，对药物分子做实验属性值回归分析，构建[药物分子SMILES序列，药物分子属性值]的训练集样本，将模型输出与属性值做MSE损失计算，进行模型梯度更新。

利用从头分子生成任务对预训练模型进行评估，包括：

使用ZINC250K数据集，并划分为训练集与验证集样本，以样本中起始标识符[bos]为输入，以对应的分子为输出，使用Uniqueness、Novelty和Validaty作为模型评估指标；

利用目标生成任务对预训练模型进行评估，包括：

使用ZINC250K数据集，并划分为训练集与验证集样本，以样本中QED属性值为输入，以对应的分子为输出，使用Uniqueness、Novelty和Validaty作为模型评估指标；

利用分子优化任务对预训练模型进行评估，包括：

使用ZINC250K数据集，并划分为训练集与验证集样本，以样本中起始分子为输入，以目标分子为输出，使用Validaty、属性提升值、分子相似度作为模型评估指标。

利用第一阶段预训练任务进行训练时，若模型损失计算变化趋势平稳，则开始进行第二阶段预训练任务。

本发明还提供一种用于药物分子分析设计的模型预训练装置，用于执行所述的用于药物分子分析设计的模型预训练方法。

本发明的有益效果如下：

本发明通过设置两阶段预训练任务实现了学习分子的高效表示、提升了模型的分子生成能力和模型泛化能力。具体的优点如下：

本发明因预训练任务本身为生成式任务，所以在保证模型学习分子结构上下文信息的同时，还使其擅长进行序列生成任务，包括分子生成、分子优化、骨架跃迁等。能够生成具有结构正确性和连贯性的分子结构，从而用于自动分子生成任务。

本发明可以充分利用大规模未标注分子结构数据的优势，第二阶段预训练任务中每一个分子SMILES序列都对应着多个变种，可以学习广泛的分子结构知识和表示。这使得模型能够更好地理解不同原子与原子之间的联系，并具有更强的泛化能力。

本发明采用原始Atom标识器(Tokenizer)与预训练好的SmilesPE标识器(Tokenizer)相结合的编码方式进行处理，可捕捉分子的结构、属性和相互作用等信息，使得模型能够更好地理解和表征不同类型的分子，提升了对药物分子结构的表示学习能力。且该种分子表示为通用的分子表示，这意味着它们不仅适用于特定任务，而且可以用于多种不同的药物相关任务，如属性预测、相互作用分析和分子生成。同时本发明模型采用Encoder-Decoder架构，使得训练出来的预训练模型适用于绝大数分子相关任务，包括属性预测、分子优化等回归、分类、生成任务

本发明设置了多个下游任务对预训练模型进行评估，以确保模型的性能、泛化能力和适用性。

本发明的其它特征和优点将在随后的说明书中阐述，或者通过实施本发明而了解。

附图说明

图1为本发明实施例模型预训练方法的流程图。

图2为本发明实施例的模型采用Atom标识器与SmilesPE标识器相结合的编码方式原理示意图。

图3为本发明实施例模型采用的Encoder-Decoder架构后处理第一阶段预训练任务时原理示意图。

具体实施方式

以下结合附图说明本发明的具体实施方式。

如图1所示，本实施例的用于药物分子分析设计的模型预训练方法，包括：

S1、制作预训练数据集：

获取药物分子数据，使用RDkit工具包将某一个药物分子SMILES序列转化为一个分子对象，选取一个原子作为根原子，在所述分子对象中以原子索引的方式生成一个以所述根原子为中心的变种子结构SMILES序列，将[药物分子SMILES序列，变种子结构SMILES序列]构成的分子对作为一个训练样本，通过选取不同的根原子，可获得不同的子结构SMILES序列，并由此获得多个训练样本；

S2、以两阶段预训练任务训练获得预训练模型：

S21、首先以MLM任务即掩码语言建模任务为第一阶段预训练任务，使模型建立部分token替换为掩码标记的药物分子SMILES序列和所述掩码标记对应的token之间的映射关系；

S22、其次以MAG任务即分子变种结构生成任务为第二阶段预训练任务，使模型建立原始的药物分子SMILES序列和变种子结构SMILES序列之间的映射关系；

S3、设置多个下游任务包括属性预测(Property Prediction)、从头分子生成(Denovo Molecule Generation)、目标生成(Goal Generation)和分子优化(MoleculeOptimization)，对预训练模型进行评估，根据各下游任务完成情况采用对应的评估指标进行评估，根据评估情况调整模型及训练参数，直至预训练模型对于各下游任务的完成情况均达到设定标准。

本实施例的模型预训练方法通过设置两阶段预训练任务实现了学习分子的高效表示、提升了模型的分子生成能力和模泛化能力。

和目前绝大部分药物分子预训练模型采用的预训练任务仅仅是掩码语言建模任务相比，本实施例设计了两阶段预训练任务，第一阶段采用MLM任务进行训练，目标是使模型学习通用的表示，能够捕捉数据的结构和特征。MLM任务属于比较简单的文本理解任务，使得模型能够学习到分子结构的浅层信息，并将训练loss快速降至低水平。第二阶段使用MAG任务进行训练，目的是使得模型拥有对于分子结构深层次的理解能力和生成能力。由于每一个分子SMILES序列都对应着多个变种，可以学习广泛的分子结构知识和表示，这使得模型能够更好地理解不同原子与原子之间的联系，并具有更强的泛化能力。并且，和直接使用MAG任务进行预训练相比时训练loss容易震荡，并不稳定，导致模型并没有全面理解分子结构信息与上下文关联信息，本实施例使用两阶段预训练策略可提升训练稳定性。

在处理小分子的SMILES(Simplified Molecular-Input Line-Entry System)表示时，通常需要将SMILES序列分割成单独的"token"或"符号"，以便进行后续的处理和分析。SMILES中的"token"可以是原子、键结、环、分子操作符等。比较经典的做法是匹配SMILES字符串中的不同元素，包括原子符号、键结、环、分子操作符等生成tokens列表，称为Atom Tokenizer(Atom标识器)。

参见图2，本实施例中，模型采用原始Atom标识器与预训练好的SmilesPETokenizer(SmilesPE标识器)相结合的编码方式进行处理，以提升SMILES表示学习能力，具体包括：

利用Atom标识器将药物分子SMILES序列拆分为原子级别token序列，然后输入Atom Embedding模块，将原子级别token序列映射成第一向量；

利用SmilesPE标识器将药物分子SMILES序列拆分为子结构级别的token序列，然后输入SmilesPE Embedding模块，将子结构级别token序列映射成第二向量；

将第一向量和第二向量融合，作为模型的输入。

所述将第一向量和第二向量融合，具体包括：

由于第一向量和第二向量长度不一致，需要做对齐操作，对齐方式为按照第一向量的长度，复制第二向量的每一个元素并拼接到该元素之后，获得更新的第二向量，从而使所述更新的第二向量的长度与第一向量长度相同；然后再将第一向量与更新的第二向量相加。

比如苯环序列c1ccccc1，在Atom Embedding输出的序列中体现为[c1,c,c,c,c,c1]，那么将苯环对应的第二向量中的元素复制5次插入SmilesPE序列对应位置。图2中，t1、t2……表示对应着第一个、第二个位置token的向量。

现有的分子大模型往往采用Encoder-Only结构，对于复杂的下游任务并不适合。本实施例预训练模型采用Encoder-Decoder的Transformer架构，Encoder-Decoder架构特别适用于序列到序列(Seq2Seq)任务，其中输入序列被编码成一个中间表示，然后由解码器生成输出序列。该结构能够处理不同长度的输入和输出序列，因此适用于各种长度不固定的文本和序列数据。具体的，利用Encoder将输入序列编码成固定长度的上下文向量或隐藏状态，以捕捉输入序列的信息和语义，利用Decoder从上下文编码中生成输出序列，使得模型能够生成与输入序列相关的文本或序列。

具体的，参见图3，对于第一阶段预训练任务，使用Bart模型的掩码方式，将掩码后的药物分子SMILES序列作为Encoder的输入，Encoder输出的分子结构上下文信息输入Decoder；将药物分子SMILES序列第一位拼接标识符[bos]后，作为Decoder的输入，Decoder输出去除掩码的药物分子SMILES序列，即获得掩码标记对应的token；

在药物分子预训练模型领域，没有一个统一评估标准。本实施例设计了四个下游任务全面评估预训练模型的效果。并在所有任务上取得最先进的结果(SOTA)，有助于确定预训练模型的性能、泛化能力和适用性。

本实施例中，利用属性预测任务对预训练模型进行评估，具体包括：

利用从头分子生成任务对预训练模型进行评估，包括：

使用ZINC250K数据集，并划分为训练集与验证集样本，以样本中起始标识符[bos]为输入，以对应的分子为输出，使用Uniqueness(唯一性)、Novelty(新颖性)和Validaty(合理性)作为模型评估指标；

利用目标生成任务对预训练模型进行评估，包括：

利用分子优化任务对预训练模型进行评估，包括：

ZINC250K数据集是一个用于计算化学和药物发现的广泛使用的数据集。它包含了约250,000个化合物的信息，每个化合物都具有其分子结构和其他相关属性的描述。这些化合物的数据可以用于各种计算化学任务，例如虚拟筛选、药物设计和药物活性预测。ZINC250K数据集的来源ZINC数据库(ZINC Is Not Commercial)，该数据库是一个免费提供化合物信息的公共资源。ZINC数据库汇集了来自各种来源的化合物信息，包括可购买的化合物和在化学文献中报道的化合物。

本实施例还提供一种用于药物分子分析设计的模型预训练装置，用于执行所述的用于药物分子分析设计的模型预训练方法。

以下以一试验例进一步说明上述实施例的模型预训练方法。

1.制作预训练数据集

a.下载ZINC20全量数据，约18亿小分子SMILES结构数据；

b.对每一个小分子SMILES序列使用RDkit工具处理，输出变种子结构SMILES序列，命名为Alias SMILES，得到数据对(SMILES，Alias SMILES)；

2.预训练阶段

a.设置模型参数：16*V100 GPU、batch_size＝530、初始learning rate＝0.1、layer num＝6；

b.第一阶段：使用MLM任务训练10000个Steps，观察其loss变化趋势，若平稳，则进行下一阶段；

c.第二阶段：使用MAG任务训练全量数据，得到预训练模型；

全流程用时约12天；

3.评估阶段

a.使用训练好的预训练模型，作为底座模型，微调训练四个下游任务；

b.使用相应指标评价模型性能。

本领域普通技术人员可以理解：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于药物分子分析设计的模型预训练方法，其特征在于，包括：

制作预训练数据集：

以两阶段预训练任务训练获得预训练模型：

2.根据权利要求1所述的用于药物分子分析设计的模型预训练方法，其特征在于，所述使用Atom标识器与SmilesPE标识器结合的编码方法，包括：

利用Atom标识器将药物分子SMILES序列拆分为原子级别token序列，然后输入AtomEmbedding模块，将所述原子级别token序列映射成第一向量；

将第一向量和第二向量融合，作为模型的输入。

3.根据权利要求2所述的用于药物分子分析设计的模型预训练方法，其特征在于，所述将第一向量和第二向量融合，包括：

4.根据权利要求1所述的用于药物分子分析设计的模型预训练方法，其特征在于，所述预训练模型采用Encoder-Decoder的Transformer架构，利用Encoder将输入序列编码成固定长度的上下文向量或隐藏状态，以捕捉输入序列的信息和语义，利用Decoder从上下文编码中生成输出序列，使得模型能够生成与输入序列相关的文本或序列。

5.根据权利要求4所述的用于药物分子分析设计的模型预训练方法，其特征在于，对于第一阶段预训练任务，使用Bart模型的掩码方式，将掩码后的药物分子SMILES序列作为Encoder的输入，Encoder输出的分子结构上下文信息输入Decoder；将药物分子SMILES序列第一位拼接标识符[bos]后作为Decoder的输入，Decoder输出去除掩码的药物分子SMILES序列，即获得掩码标记对应的token；

6.根据权利要求4所述的用于药物分子分析设计的模型预训练方法，其特征在于，对于第二阶段预训练任务，将药物分子SMILES序列作为Encoder的输入，Encoder输出的分子结构上下文信息输入Decoder；将变种子结构SMILES序列作为Decoder的输入，Decoder输出该变种子结构SMILES。

7.根据权利要求1所述的用于药物分子分析设计的模型预训练方法，其特征在于，利用属性预测任务对预训练模型进行评估，包括：

8.根据权利要求1所述的用于药物分子分析设计的模型预训练方法，其特征在于，利用从头分子生成任务对预训练模型进行评估，包括：

利用目标生成任务对预训练模型进行评估，包括：

利用分子优化任务对预训练模型进行评估，包括：

9.根据权利要求1所述的用于药物分子分析设计的模型预训练方法，其特征在于，利用第一阶段预训练任务进行训练时，若模型损失计算变化趋势平稳，则开始进行第二阶段预训练任务。

10.一种用于药物分子分析设计的模型预训练装置，其特征在于，用于执行如权利要求1-9任一项所述的用于药物分子分析设计的模型预训练方法。