CN114913917A

CN114913917A - 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法

Info

Publication number: CN114913917A
Application number: CN202210615644.6A
Authority: CN
Inventors: 左海维; 王亮; 张立; 周鹏程; 刘莘
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-16
Anticipated expiration: 2042-06-01
Also published as: CN114913917B

Abstract

本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法，包括：获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息；将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间，模拟化合物与靶蛋白三维空间生物反应，获取偏差标量；构建蒸馏BERT模型，基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练，获取DTA预测模型，基于所述DTA预测模型完成药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时，在预测药物靶标亲和度方面具有较高的准确率。

Description

基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法

技术领域

本发明属于药物靶标亲和度预测领域，尤其涉及基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法。

背景技术

传统的药物研发过程存在成本高、耗时长、效率低等问题。据统计，一款新药从理论研究到批准上市的平均周期是12年，平均耗资为26亿美金。基于人工智能的虚拟药物筛选可以免去大量传统实验筛选造成的财力、精力、时间消耗，减少药物研发投入，是当前新药物研发技术的热点研究方向。药物靶标亲和度(DTA)预测是虚拟药物筛选的重要环节之一，能够从海量候选化合物中筛选潜在药物，提高新药研制和药物重定位的准确率，实现降本提效。

受限于蛋白质三维结构资源严重缺乏，现有研究方法多基于蛋白质和化合物分子序列或二级结构特征进行DTA预测。然而，该类方法无法充分考虑药物与靶标的空间生物反应过程，导致预测模型缺少生物可解释性，影响了预测结果的可信度。蛋白质三维结构信息缺乏、模型生物可解释性不足等问题，限制了DTA预测技术的进一步发展与应用。

2021年蛋白质结构预测技术取得了变革性突破，AlphaFold2高准确率预测了几乎覆盖人类整个蛋白质组内所有已确定氨基酸序列的单体蛋白质的三维结构信息。这将为DTA预测的研究创造新的契机，有望基于蛋白质三维结构信息，研究药物靶标空间相互作用关系特征，实现具有生物可解释性的精准可信的DTA预测。但是，目前AlphaFold2蛋白质结构预测结果仍不具备像X射线晶体学、核磁共振和冷冻电镜等实验手段获得的蛋白质结构信息的准确性和可用性。因此，不能仅单独依靠AlphaFold2给出的蛋白质结构进行DTA预测。

药物作用的机理是药物与靶标在结合位点的生物反应，因此，蛋白质与化合物三维结构信息的关联融合分析是生物可解释性、高可信度DTA预测的关键。而现有模型无法体现蛋白质与化合物空间生物结合过程。数字孪生能够以数字化的方式建立物理实体的多维、多时空尺度、多学科、多物理量的动态虚拟模型来仿真和刻画物理实体在真实环境中的属性、行为、规则等。因此，可以利用数字孪生技术构建虚实结合的人体蛋白质数字孪生三维空间，在数字孪生空间中模拟蛋白质与化合物空间生物结合过程，与基于人工智能的DTA预测之间实现虚实交互。

蛋白质氨基酸序列与化合物SMILES序列容易获得，可以采用自然语言处理技术进行处理。AlphaFold2模型与数字孪生模型非常大，在训练形成数字孪生空间后，对于新的靶蛋白(单体)，可以使用蒸馏模型。因此机器学习算法模块采用蒸馏BERT。

发明内容

为解决上述技术问题，本发明提出了一种基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法，在考虑了药物靶标三维空间生物反应过程的同时，在预测药物靶标亲和度方面具有较高的准确率。

为实现上述目的，本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法，包括：

获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息；

将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间，模拟化合物与靶蛋白三维空间生物反应，获取偏差标量；

构建蒸馏BERT模型，基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练，获取DTA预测模型，基于所述DTA预测模型完成药物靶标亲和度联合预测。

可选地，所述药物靶标信息包括：蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。

可选地，模拟化合物与靶蛋白三维空间生物反应的过程包括：

构建带有空间结构信息的蛋白质-化合物二分图；

基于蛋白质与化合物结合的化学原理，获取两类原子间的最短空间距离；

基于所述最短空间距离，构建所述蛋白质-化合物二分图的邻接矩阵；

基于所述邻接矩阵中的边连接强弱关系进行空间编码并对其进行学习，获得所述偏差标量。

可选地，所述邻接矩阵为：

其中，A_ij为蛋白质-化合物二分图的邻接矩阵，d_ij为任意两节点间距离，

为基于化学结合原理的经验阈值。

可选地，所述蒸馏BERT模型包括：教师模型和学生模型；

所述教师模型包括1个嵌入层和12个Transformer层；

所述学生模型包括1个嵌入层和6个transformer层。

可选地，对所述蒸馏BERT模型进行训练包括：

将所述药物靶标信息和所述偏差标量输入所述教师模型，获取所述教师模型的输出结果，对所述教师模型的输出结果进行温度处理后进行softmax输出，获取数据的软标签；

将所述药物靶标信息和所述偏差标量输入所述学生模型，获取所述学生模型的输出结果，所述学生模型的输出结果包括第一输出结果和第二输出结果，将所述第一输出结果与所述软标签进行交叉熵运算，获取第一运算结果；将所述第二输出结果与硬标签进行交叉熵运算，获取第二运算结果；其中，所述硬标签为DTA原始真实标签；

基于所述第一运算结果与所述第二运算结果构建损失函数，基于所述损失函数训练所述学生模型，训练后的所述学生模型即为所述DTA预测模型。

可选地，所述第一输出结果与所述软标签进行交叉熵运算前包括：将所述第一输出结果进行温度处理后再进行softmax输出；

所述第二输出结果与所述硬标签进行交叉熵运算前包括：将所述第二输出结果进行softmax输出。

可选地，所述损失函数为：

L＝λL_soft+(1-λ)L_hard

其中，L为损失函数，L_soft为第一运算结果，L_hard为第二运算结果，λ为两个损失函数L_soft和L_hard之间的平衡参数。

与现有技术相比，本发明具有如下优点和技术效果：

本发明首先获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息；然后将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间，模拟化合物与靶蛋白三维空间生物反应，获取偏差标量；最后构建蒸馏BERT模型，基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练，获取DTA预测模型，用于药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时，在预测药物靶标亲和度方面具有较高的准确率。同时与现有模型相比本发明DTA预测模型的鲁棒性更强。本方法提出的模型具有较高的生物可解释性，能够为下游苗头化合物的筛选和先导化合物的设计提供高可信度、高精准度的参考依据。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法流程示意图；

图2为本发明实施例的基于蒸馏BERT的药物靶标亲和度预测训练模型示意图；

图3为本发明实施例的DTA预测模型示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例

如图1所示，本实施例提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法，包括：

将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间，构建以氨基酸残基为中心的三维坐标系，固定蛋白质位置，空间内旋转化合物三维结构，模拟化合物与靶蛋白三维空间生物反应，获取偏差标量；

构建蒸馏BERT模型，基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练，获取DTA预测模型，基于DTA预测模型完成药物靶标亲和度联合预测。

进一步地，药物靶标信息包括：蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。

在本实施例中，从PubChem、DrugBank、ChEMBL、PDBbind、BindingDB、Davis和KIBA等数据库收集下载蛋白质和化合物的名称、生物类别、相关疾病、药物靶标相互作用关系(DTI)及药物靶标亲和度(DTA)等数据，整理并构建面向基于机器学习的DTA预测的药物靶标信息。

从PDB数据库下载已经过X射线晶体学、核磁共振和冷冻电镜等实验手段测出的蛋白质三维结构数据。AlphaFold蛋白质结构数据库下载所有AlphaFold2已经预测出来的蛋白质三维结构数据，包括人类蛋白质组。整理并构建面向数字孪生蛋白质三维空间的蛋白质三维结构信息。

从ChEMBL、QM9等数据库下载化合物结构信息，整理并构建化合物三维结构信息库。

进一步地，数字孪生三维空间构建：

根据DTA预测过程的结果，查询化合物三维结构信息库，获取推荐的可行化合物三维结构数据，送入数字孪生分子三维空间，模拟化合物与靶蛋白三维空间生物反应过程。模拟过程包括：

(1)构建带有空间结构信息的蛋白质-化合物二分图。二分图表示为G_pd＝(V_pd,E_pd)。其中，V_pd为图节点，代表组成二分图的M个蛋白质原子和K个化合物原子的结构特征。节点v_i∈V_pd，i＝1,2,...,M，为蛋白质原子，初始特征为蛋白质三维结构数据；节点v_j∈V_pd，j＝1,2,...,K，为化合物原子，初始特征为化合物三维结构数据。E_pd为图的边，代表蛋白质原子v_i与化合物原子v_j之间的连接关系，任一条边e_ij∈E_pd。

(2)将两类原子间相互作用问题可等价于二分图中两类节点的相连问题，根据空间结构求解可结合原子之间的最短空间距离。对蛋白质和化合物小分子在数字孪生三维空间中建模，固定蛋白质位置，空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理，求解满足结合条件的两类原子间最短空间距离，并构建其对应的两类节点间最短空间距离表示D_pd，任意两点间距离d_ij∈D_pd。

(3)根据最短距离构建二分图中节点间连接关系。基于最短空间距离表示矩阵D_pd，构建蛋白质-化合物二分图的邻接矩阵A_ij，建立两类节点间边连接关系，如公式(1)所示。其中，

为基于化学结合原理的经验阈值。训练过程中，利用已有标签的数据，即已知的存在DTA或DTI关系的蛋白质-化合物对进行不断训练与优化，也可以获得合适的用于构建邻接矩阵A_ij中节点间连接关系的参考阈值。

(4)基于邻接矩阵A_ij中边连接强弱关系进行空间编码并对其进行学习以获得偏差标量bias。该偏差标量将作为药物靶标相关性强度参数加入Transformer模块的自注意力层。

进一步地，基于蒸馏BERT模型的DTA预测；其中蒸馏BERT模型包括：教师模型和学生模型；教师模型包括1个嵌入层和12个Transformer层；学生模型包括1个嵌入层和6个transformer层。

使用BERT的好处：利用BERT自带的MASK操作，能够帮助模型更好的学习到蛋白质氨基酸序列和化合物SMILES序列上下文信息，实现双向注意。

第一步：训练教师模型，在教师模型训练时使用DTA/DTI数据的真实标签，用真实数据对教师模型进行微调，得到一个准确率高、学习到大量相互作用关系知识的模型。基于蒸馏BERT的药物靶标亲和度预测训练模型如图2所示。

以蛋白质氨基酸序列与化合物SMILES序列为输入，对序列进行输入嵌入和位置嵌入后，送入教师模型的蒸馏BERT模块。教师模型的BERT初始模型采用BERT-based模型，包含1个嵌入层和12个Transformer层。每一层的Transformer共享由数字孪生空间模拟蛋白质-化合物生物反应过程后给出的偏差值bias，即每个Transformer中自注意力层的输出如公式(2)所示，其中Q、K和V分别是自注意力模块的查询(query)、键值(Key)和值(Value)，d是隐藏层维度。

自注意力层拟采用多头注意力机制，之后经过残差连接、归一化以及前馈神经网络等层的处理，输出一次Transformer编码结果。经过12层Transformer的分层处理后将最后一层的输出进行拼接，然后送入全连接神经网络，获得输出z_ti。对输出z_ti进行温度处理后再进行softmax输出，获得数据的软标签(soft target)，定义为p_i，结果表示为：

使用较大的T值来训练模型，以便复杂的神经网络能够产生更均匀分布的软目标。同时，使用DTA/DTI相关性数据作为真实标签，训练模型。

为了使预训练模型获得捕捉序列的语义信息，在预训练中，分别对氨基酸序列采用基于残基全词遮蔽的遮蔽策略，对SMILES序列采用基于基团全词遮蔽的遮蔽策略。先对残基、基团等进行语料分词，在遮蔽后随即抽取部分词，并对所属选中词的所有字符进行遮蔽。相较完全随机的遮蔽策略，全词遮蔽可以有效提高无监督训练难度，提高模型对于词语语义的理解。

第二步：训练学生模型，在训练学生模型过程中，同样使用蛋白质氨基酸序列和化合物SMLES序列进行训练。学生模型的包含1个嵌入层和6个transformer层。蛋白质氨基酸序列与化合物SMILES序列输入后的输入嵌入、位置嵌入以及偏差处理与教师模型相同。最后一层transformer的输出进行拼接，然后送入全连接神经网络，获得输出z_si。接下来分为两部分：(1)对输出z_si进行与教师模型相同的温度处理。使用与教师模型相同的T值来学习由教师模型产生的软标签，接近这个软标签从而学习到数据的结构分布特征。温度处理后softmax输出，结果表示为q_i，求法如上述软标签一样。计算软标签之间交叉熵，定义为L_soft即第一运算结果：

(2)输出z_si不进行温度处理，直接进行softmax输出，结果s_i表示为：

one-hot编码的硬标签(即DTA原始真实标签)，表示为t_i。学生模型softmax输出s_i与标注的分类硬标签t_i之间进行交叉熵运算，结果表示为L_hard即第二运算结果：

然后求解总的损失函数L：

L＝λL_soft+(1-λ)L_hard (7)

其中，λ为两个损失函数L_soft和L_hard之间的平衡参数。

以最小化损失函数L为目标，训练教师模型与学生模型。最后对学生模型进行微调。

第三步：利用最后形成的学生模型预测新的靶标蛋白质，模型包含1个嵌入层和6个Transformer层，最后一层transformer的输出进行拼接，然后送入全连接神经网络，获得最终输出，结果为DTA预测值。用于预测新靶蛋白的基于蒸馏BERT的DTA预测模型，即用于新DTA关系预测的学生模型如图3所示。

本实施例中还对最终获得的DTA预测模型进行验证，具体步骤包括：

(1)数据集

模型训练时，从公开数据集Davis和KIBA上获取数据。Davis数据集包括442种蛋白质与其一级氨基酸序列、68种化合物与其SMILE符号表示序列、30056个蛋白质-化合物对的亲和度值。其中，氨基酸有25种、SMILES符号有62种，亲和度值为K_d。KIBA数据集包括229种蛋白质与其一级氨基酸序列、2111种化合物与其SMILE符号表示序列、118254个蛋白质-化合物对的亲和度值。其中，氨基酸有25种、SMILES符号有62种，亲和度值为KIBA分数。

(2)模型的训练

1)数据划分

Davis数据集：按照5/1将数据划分为训练集与测试集数据，数据随机划分5次。其中，训练集包括：25046个蛋白质-化合物对的亲和度值，测试集包括：5010个蛋白质-化合物对的亲和度值。

KIBA数据集：按照5/1将数据划分为训练集与测试集数据，数据随机划分5次。其中，训练集包括：98545个蛋白质-化合物对的亲和度值，测试集包括：19709个蛋白质-化合物对的亲和度值。

2)训练模型

利用训练集数据训练构建的模型，并保存训练后的模型，该过程重复5次。

(3)利用训练后的模型进行预测

Davis数据集：利用训练后的模型对测试集中5010个蛋白质-化合物对的亲和度值进行预测，该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。

KIBA数据集：利用训练后的模型对测试集中19709个蛋白质-化合物对的亲和度值进行预测，该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。

(4)利用预测结果计算模型评价指标

根据测试集的亲和度真实值与模型输出的预测值，计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值

以及CI与

的方差。

(5)结果

经过计算，在Davis数据集中，我们模型的结果为：MSE(0.217)，CI(0.904)，

其中，CI与

的标准差分别为0.001与0.001。在KIBA数据集中，我们模型的结果为：MSE(0.147)，CI(0.894)，

其中，CI与

的标准差分别为0.003与0.007。与本领域已有研究中的部分DTA预测模型进行性能对比，Davis数据集和KIBA数据集上结果比较分别如表1和表2所示。结果显示，本发明基于蒸馏BERT的DTA预测方法优于表里的其他方法。

表1

表2

(6)结论

在Davis数据集与KIBA数据集中，模型均取得了最高的指标。这表明模型的预测精度优于目前最新的模型，且模型的鲁棒性更强。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。