CN116312855B

CN116312855B - 先导化合物活性优化方法

Info

Publication number: CN116312855B
Application number: CN202310208564.3A
Authority: CN
Inventors: 居斌; 孙楠楠; 钱小亮
Original assignee: Hangzhou Shengao Information Technology Co ltd
Current assignee: Hangzhou Shengao Information Technology Co ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-09-08
Anticipated expiration: 2043-02-28
Also published as: CN116312855A

Abstract

本发明公开了一种先导化合物活性优化方法，包含：通过PDB数据库建立(scaffold，fake_R_group，true_R_goup)MMP训练集；通过MMP训练集对Transformer模型进行训练。最终通过训练好的Transformer模型实现后续的R基团预测。本发明的先导化合物活性优化方法，通过构造MMP数据集，获得R基团优化目标的监督训练数据，避免了R基团和母核分子组装过程中容易出现自然界不存在的分子结构的问题，同时将蛋白质口袋信息编码输入到Transformer模型，提升了R基团替换时的先导分子活性。

Description

先导化合物活性优化方法

技术领域

本发明涉及一种先导化合物活性优化方法。

背景技术

计算机辅助先导化合物活性优化技术是指利用计算机算法提高靶点和先导化合物结合亲和力的方法。通常，药物化学家会根据他们的直觉对初始分子进行分子优化。一种广泛使用的策略是采用匹配分子对(Matched Molecular Pair，以下简称MMP)的概念，即药化专家会对保持初始分子母核部分(scaffold)不变，同时替换另一部分结构基团(R基团)，以获得所需的活性。

传统计算机辅助药物设计(以下简称CADD)方法是通过R基团和scaffold的构效关系(以下简称SAR)实现先导优化过程。一般而言，SAR算法中的R基团替换是基于专家经验知识实现。然而，R基团替换的专家知识库非常庞大，受到人脑经验和后期维护成本的限制，先导优化技术有待发展。

越来越多的研究表明，新一代的人工智能(Artificial Intelligence，以下简称AI)技术能够提升先导优化性能指标。然而，现有AI方法主要通过片段组合生成(FragmentBased Drug Discovery)实现先导优化。

传统SAR算法采用浅层机器学习算法作为知识库补充方法，活性提升性能一般，难以达到专家知识水平。目前AI主流的基于深度学习的分子生成算法，由于缺乏优化目标的监督训练数据，R基团和母核分子组装过程中容易出现自然界不存在的分子结构。

本发明能兼顾CADD和AI的优势，并且能有效解决上述出现的问题。

发明内容

本发明提供了一种先导化合物活性优化方法解决上述提到的技术问题，具体采用如下的技术方案：

一种先导化合物活性优化方法，包含以下步骤：

获取PDB数据库，抽取蛋白质靶标target和小分子配体ligand的共晶结构，从BindingDB数据库中找到对应的活性值pAC50，按活性值pAC50制作三元组(target，ligand，pAC50)格式的数据集；

从三元组中选择pAC50值大于预设值的小分子配体ligand，用docking软件逐个完成target和ligand的打分，即ppAC50值，形成(target_FASTA，ligand，pAC50，ppAC50)四元组，target_FASTA是指蛋白质靶标target的完整氨基酸序列；

逐个为四元组中的小分子配体ligand断裂出初始分子母核scaffold和R基团true_R_goup，生成新的R基团fake_R_goup拼接到初始分子母核scaffold的断裂处；

将新的R基团fake_R_goup和初始分子母核scaffold进行拼接产生新的小分子配体ligand，用docking软件进行打分，即pppAC50，如果pppAC50小于ppAC50，则将这些新数据构造出(target_FASTA，ligand，pAC50，ppAC50，pppAC50，scaffold，fake_R_goup，true_R_group)八元组；

从八元组中提取出初始分子母核scaffold和新的R基团fake_R_goup作为训练数据，对应的R基团true_R_goup则作为训练集中的标签数据，获得(scaffold，fake_R_group，true_R_goup)MMP训练集；

通过MMP训练集对Transformer模型进行训练。

进一步地，通过MMP训练集对Transformer模型进行训练的具体方法为：

获取MMP训练集中的初始分子母核scaffold和新的R基团fake_R_goup的隐空间向量H；

将获取到的隐空间向量H输入Transformer模型的编码模块进行编码得到隐向量L；

获取PDB数据库中的蛋白质序列的特征向量P；

将隐向量L和特征向量P进行注意力加权操作得到隐向量C；

将隐向量C输入Transformer模型的解码模块进行解码生成预测的R基团R_group；

通过预测的R基团R_group和R基团true_R_goup计算LOSS，直至迭代完成。

进一步地，所述获取MMP训练集中的初始分子母核scaffold和新的R基团fake_R_goup的隐空间向量H的具体方法为：

通过消息传递神经网络MPNN编码对初始分子母核scaffold和新的R基团fake_R_group的2D分子图进行编码得到隐向量H₁；

通过SMILES序列编码对初始分子母核scaffold和新的R基团fake_R_goup拼接成的SMILES进行编码得到隐向量H₂；

拼接隐向量H₁和隐向量H₂得到隐空间向量H。

进一步地，所述获取PDB数据库中的蛋白质序列的特征向量P的具体方法为：

将PDB数据库中的蛋白质序列输入到训练好的模型TAPE生成特征向量P。

进一步地，Transformer模型的编码模块包含multi-head self-attention子模块和第一FFN子模块。

进一步地，Transformer模型的解码模块包含masked self-attention子模块、encoder-decoder attention子模块和第二FFN子模块。

进一步地，通过预测的R基团R_group和R基团true_R_goup计算LOSS的具体方法是采用下述公式计算误差：

其中，S^pred表示模型预测出的R基团R_group的SMILES，S^true表示R基团true_R_goup的SMILES。

进一步地，从三元组中选择pAC50值大于7的小分子配体ligand。

进一步地，docking软件为VINA。

进一步地，通过R-group replacement resource规则库产生新的R基团fake_R_group。

本发明的有益之处在于所提供的先导化合物活性优化方法，通过构造MMP数据集，获得R基团优化目标的监督训练数据，避免了R基团和母核分子组装过程中容易出现自然界不存在的分子结构的问题，同时将蛋白质口袋信息编码输入到Transformer模型，提升了R基团替换时的先导分子活性。

附图说明

图1是本发明的一种先导化合物活性优化方法的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

本申请公开一种先导化合物活性优化方法，具体包含以下步骤：

S1：获取PDB数据库，抽取蛋白质靶标target和小分子配体ligand的共晶结构，从BindingDB数据库中找到对应的活性值pAC50(即pIC50、pKi、pKd三种活性值)，按活性值pAC50制作三元组(target，ligand，pAC50)格式的数据集。PDB数据库可以从互联网中下载获取。

S2：从三元组中选择pAC50值大于预设值的小分子配体ligand，用docking软件逐个完成target和ligand的打分，即ppAC50值，形成(target_FASTA，ligand，pAC50，ppAC50)四元组，target_FASTA是指蛋白质靶标target的完整氨基酸序列。在本申请中，从三元组中选择pAC50值大于7的小分子配体ligand。而docking软件为VINA。

S3：逐个为四元组中的小分子配体ligand断裂出初始分子母核scaffold和R基团true_R_goup，生成新的R基团fake_R_goup拼接到初始分子母核scaffold的断裂处。在本申请中，通过R-group replacement resource规则库产生新的R基团fake_R_group。

S4：将新的R基团fake_R_goup和初始分子母核scaffold进行拼接产生新的小分子配体ligand，用docking软件进行打分，即pppAC50，如果pppAC50小于ppAC50，则将这些新数据构造出(target_FASTA，ligand，pAC50，ppAC50，pppAC50，scaffold，fake_R_goup，true_R_group)八元组。

S5：从八元组中提取出初始分子母核scaffold和新的R基团fake_R_goup作为训练数据，对应的R基团true_R_goup则作为训练集中的标签数据，获得(scaffold，fake_R_group，true_R_goup)MMP训练集。八元组中的初始分子母核scaffold和新的R基团fake_R_goup作为模型输入的重要信息来源，需要通过"简化分子线性输入规范"来表征分子结构，即SMILES。

S6：通过MMP训练集对Transformer模型进行训练。训练完成后的Transformer模型具有预测功能，能够针对性的生成预测的R基团。

在本申请的实施方式中，如图1所示，通过MMP训练集对Transformer模型进行训练的具体方法为：

S61：获取MMP训练集中的初始分子母核scaffold和新的R基团fake_R_goup的隐空间向量H。

具体地，获取MMP训练集中的初始分子母核scaffold和新的R基团fake_R_goup的隐空间向量H的具体方法为：

通过消息传递神经网络MPNN编码对初始分子母核scaffold和新的R基团fake_R_group的2D分子图进行编码得到隐向量H₁∈R^m×d1。具体输入G＝(V，E)，V代表组成分子的每个原子，即V＝{v1,v2,…vn},vi∈{1<＝i<＝n}，包含了RDKit开源工具包计算的scaffold、fake_R_group中的每个重原子的2D化学属性。代表两个原子i,j之间的键，H₁∈R^m×d1。

通过SMILES序列编码对初始分子母核scaffold和新的R基团fake_R_group拼接成的SMILES进行编码得到隐向量H₂∈R^m×d2。

拼接隐向量H₁和隐向量H₂得到隐空间向量H∈R^m×(d1+d2)。其中，m代表小分子SMILE的长度，d1+d2为隐变量维度。

S62：将获取到的隐空间向量H输入Transformer模型的编码模块进行编码得到隐向量L。

具体地，Transformer模型的编码模块包含multi-head self-attention(多头自编码)子模块和第一FFN(position-wise feed-forward network，前馈神经网络)子模块。隐空间向量H通过Transformer模型的编码模块进行编码后得到隐向量L∈R^m×f，f表示隐藏层维度。

S63：获取PDB数据库中的蛋白质序列的特征向量P。

具体而言，获取PDB数据库中的蛋白质序列的特征向量P的具体方法为：

通过PDB数据库中的蛋白质序列对开源模型TAPE进行训练。训练好后，再将PDB数据库中的蛋白质序列输入到训练好的模型TAPE生成包含了蛋白质丰富信息的k维特征向量P∈R^k。

S64：将隐向量L和特征向量P进行注意力加权操作得到隐向量C；

具体地，根据公示e_pi＝att(P,L_i),计算初始分子母核scaffold和新的R基团fake_R_goup拼接成的中的每一个token与蛋白质序列的相关性，获得向量e_pmol＝(att(P,L₁),..att(P,L_m)),其中att表示加权点乘,L_i表示SMILES中的第i token。然后使用公式a_pmol＝softmax(e_pmol))将e_pmol标准化得到attention的分布后根据公式获得隐向量h_pmol∈R^f。最后利用Cotent＝φ(L,h_pmol),获得向量Cotent∈R^m×f,φ表示加权点乘。拼接Cotent和蛋白质向量，获得隐向量C∈R^m×(f+k)。

S65：将隐向量C输入Transformer模型的解码模块进行解码生成预测的R基团R_group。

具体而言，Transformer模型的解码模块包含masked self-attention子模块、encoder-decoder attention子模块和第二FFN子模块。

通过masked self-attention掩盖住t+1时刻以后的tokens。通过encoder-decoder attention层帮助解码器关注SMILES序列中的重要部分。

解码器迭代生成小分子R基团的SMILES序列S＝(s₁,s₂,…s_l),直到结束符“EOS”出现或者小分子R基团的SMILES长度达到设定最大长度l结束小分子R基团生长。

使用规则拼接scaffold和生成的小分子R基团的S序列后获得小分子的SMILES序列M＝(m₁,m₂,…m_m),m>l。

S66：通过预测的R基团R_group和R基团true_R_goup计算LOSS，直至迭代完成。

作为一种优选的实施方式，通过预测的R基团R_group和R基团true_R_goup计算LOSS的具体方法是采用下述公式计算误差：

其中，l表示R基团的SMILES长度。S^pred表示模型预测出的R基团R_group的SMILES，S^true表示R基团true_R_goup的SMILES，/>

定义生成模型的迭代次数，定义小分子的R基团的最大生长长度l,按照定义的参数进行迭代，直至完成。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种先导化合物活性优化方法，其特征在于，包含以下步骤：

通过MMP训练集对Transformer模型进行训练。

2.根据权利要求1所述的先导化合物活性优化方法，其特征在于，

通过MMP训练集对Transformer模型进行训练的具体方法为：

获取PDB数据库中的蛋白质序列的特征向量P；

将隐向量L和特征向量P进行注意力加权操作得到隐向量C；

3.根据权利要求2所述的先导化合物活性优化方法，其特征在于，

所述获取MMP训练集中的初始分子母核scaffold和新的R基团fake_R_goup的隐空间向量H的具体方法为：

拼接隐向量H₁和隐向量H₂得到隐空间向量H。

4.根据权利要求3所述的先导化合物活性优化方法，其特征在于，

所述获取PDB数据库中的蛋白质序列的特征向量P的具体方法为：

5.根据权利要求4所述的先导化合物活性优化方法，其特征在于，

Transformer模型的编码模块包含multi-head self-attention子模块和第一FFN子模块。

6.根据权利要求5所述的先导化合物活性优化方法，其特征在于，

Transformer模型的解码模块包含masked self-attention子模块、encoder-decoderattention子模块和第二FFN子模块。

7.根据权利要求6所述的先导化合物活性优化方法，其特征在于，

通过预测的R基团R_group和R基团true_R_goup计算LOSS的具体方法是采用下述公式计算误差：

8.根据权利要求1所述的先导化合物活性优化方法，其特征在于，

从三元组中选择pAC50值大于7的小分子配体ligand。

9.根据权利要求1所述的先导化合物活性优化方法，其特征在于，

docking软件为VINA。

10.根据权利要求1所述的先导化合物活性优化方法，其特征在于，

通过R-group replacement resource规则库产生新的R基团fake_R_group。