CN114913917A - 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 - Google Patents

基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 Download PDF

Info

Publication number
CN114913917A
CN114913917A CN202210615644.6A CN202210615644A CN114913917A CN 114913917 A CN114913917 A CN 114913917A CN 202210615644 A CN202210615644 A CN 202210615644A CN 114913917 A CN114913917 A CN 114913917A
Authority
CN
China
Prior art keywords
model
protein
drug target
distillation
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210615644.6A
Other languages
English (en)
Other versions
CN114913917B (zh
Inventor
左海维
王亮
张立
周鹏程
刘莘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202210615644.6A priority Critical patent/CN114913917B/zh
Publication of CN114913917A publication Critical patent/CN114913917A/zh
Application granted granted Critical
Publication of CN114913917B publication Critical patent/CN114913917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,包括:获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。

Description

基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法
技术领域
本发明属于药物靶标亲和度预测领域,尤其涉及基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法。
背景技术
传统的药物研发过程存在成本高、耗时长、效率低等问题。据统计,一款新药从理论研究到批准上市的平均周期是12年,平均耗资为26亿美金。基于人工智能的虚拟药物筛选可以免去大量传统实验筛选造成的财力、精力、时间消耗,减少药物研发投入,是当前新药物研发技术的热点研究方向。药物靶标亲和度(DTA)预测是虚拟药物筛选的重要环节之一,能够从海量候选化合物中筛选潜在药物,提高新药研制和药物重定位的准确率,实现降本提效。
受限于蛋白质三维结构资源严重缺乏,现有研究方法多基于蛋白质和化合物分子序列或二级结构特征进行DTA预测。然而,该类方法无法充分考虑药物与靶标的空间生物反应过程,导致预测模型缺少生物可解释性,影响了预测结果的可信度。蛋白质三维结构信息缺乏、模型生物可解释性不足等问题,限制了DTA预测技术的进一步发展与应用。
2021年蛋白质结构预测技术取得了变革性突破,AlphaFold2高准确率预测了几乎覆盖人类整个蛋白质组内所有已确定氨基酸序列的单体蛋白质的三维结构信息。这将为DTA预测的研究创造新的契机,有望基于蛋白质三维结构信息,研究药物靶标空间相互作用关系特征,实现具有生物可解释性的精准可信的DTA预测。但是,目前AlphaFold2蛋白质结构预测结果仍不具备像X射线晶体学、核磁共振和冷冻电镜等实验手段获得的蛋白质结构信息的准确性和可用性。因此,不能仅单独依靠AlphaFold2给出的蛋白质结构进行DTA预测。
药物作用的机理是药物与靶标在结合位点的生物反应,因此,蛋白质与化合物三维结构信息的关联融合分析是生物可解释性、高可信度DTA预测的关键。而现有模型无法体现蛋白质与化合物空间生物结合过程。数字孪生能够以数字化的方式建立物理实体的多维、多时空尺度、多学科、多物理量的动态虚拟模型来仿真和刻画物理实体在真实环境中的属性、行为、规则等。因此,可以利用数字孪生技术构建虚实结合的人体蛋白质数字孪生三维空间,在数字孪生空间中模拟蛋白质与化合物空间生物结合过程,与基于人工智能的DTA预测之间实现虚实交互。
蛋白质氨基酸序列与化合物SMILES序列容易获得,可以采用自然语言处理技术进行处理。AlphaFold2模型与数字孪生模型非常大,在训练形成数字孪生空间后,对于新的靶蛋白(单体),可以使用蒸馏模型。因此机器学习算法模块采用蒸馏BERT。
发明内容
为解决上述技术问题,本发明提出了一种基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。
为实现上述目的,本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。
可选地,所述药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
可选地,模拟化合物与靶蛋白三维空间生物反应的过程包括:
构建带有空间结构信息的蛋白质-化合物二分图;
基于蛋白质与化合物结合的化学原理,获取两类原子间的最短空间距离;
基于所述最短空间距离,构建所述蛋白质-化合物二分图的邻接矩阵;
基于所述邻接矩阵中的边连接强弱关系进行空间编码并对其进行学习,获得所述偏差标量。
可选地,所述邻接矩阵为:
Figure BDA0003674177150000031
其中,Aij为蛋白质-化合物二分图的邻接矩阵,dij为任意两节点间距离,
Figure BDA0003674177150000032
为基于化学结合原理的经验阈值。
可选地,所述蒸馏BERT模型包括:教师模型和学生模型;
所述教师模型包括1个嵌入层和12个Transformer层;
所述学生模型包括1个嵌入层和6个transformer层。
可选地,对所述蒸馏BERT模型进行训练包括:
将所述药物靶标信息和所述偏差标量输入所述教师模型,获取所述教师模型的输出结果,对所述教师模型的输出结果进行温度处理后进行softmax输出,获取数据的软标签;
将所述药物靶标信息和所述偏差标量输入所述学生模型,获取所述学生模型的输出结果,所述学生模型的输出结果包括第一输出结果和第二输出结果,将所述第一输出结果与所述软标签进行交叉熵运算,获取第一运算结果;将所述第二输出结果与硬标签进行交叉熵运算,获取第二运算结果;其中,所述硬标签为DTA原始真实标签;
基于所述第一运算结果与所述第二运算结果构建损失函数,基于所述损失函数训练所述学生模型,训练后的所述学生模型即为所述DTA预测模型。
可选地,所述第一输出结果与所述软标签进行交叉熵运算前包括:将所述第一输出结果进行温度处理后再进行softmax输出;
所述第二输出结果与所述硬标签进行交叉熵运算前包括:将所述第二输出结果进行softmax输出。
可选地,所述损失函数为:
L=λLsoft+(1-λ)Lhard
其中,L为损失函数,Lsoft为第一运算结果,Lhard为第二运算结果,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
与现有技术相比,本发明具有如下优点和技术效果:
本发明首先获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;然后将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;最后构建蒸馏BERT模型,基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练,获取DTA预测模型,用于药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。同时与现有模型相比本发明DTA预测模型的鲁棒性更强。本方法提出的模型具有较高的生物可解释性,能够为下游苗头化合物的筛选和先导化合物的设计提供高可信度、高精准度的参考依据。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法流程示意图;
图2为本发明实施例的基于蒸馏BERT的药物靶标亲和度预测训练模型示意图;
图3为本发明实施例的DTA预测模型示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
如图1所示,本实施例提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间,构建以氨基酸残基为中心的三维坐标系,固定蛋白质位置,空间内旋转化合物三维结构,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练,获取DTA预测模型,基于DTA预测模型完成药物靶标亲和度联合预测。
进一步地,药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
在本实施例中,从PubChem、DrugBank、ChEMBL、PDBbind、BindingDB、Davis和KIBA等数据库收集下载蛋白质和化合物的名称、生物类别、相关疾病、药物靶标相互作用关系(DTI)及药物靶标亲和度(DTA)等数据,整理并构建面向基于机器学习的DTA预测的药物靶标信息。
从PDB数据库下载已经过X射线晶体学、核磁共振和冷冻电镜等实验手段测出的蛋白质三维结构数据。AlphaFold蛋白质结构数据库下载所有AlphaFold2已经预测出来的蛋白质三维结构数据,包括人类蛋白质组。整理并构建面向数字孪生蛋白质三维空间的蛋白质三维结构信息。
从ChEMBL、QM9等数据库下载化合物结构信息,整理并构建化合物三维结构信息库。
进一步地,数字孪生三维空间构建:
根据DTA预测过程的结果,查询化合物三维结构信息库,获取推荐的可行化合物三维结构数据,送入数字孪生分子三维空间,模拟化合物与靶蛋白三维空间生物反应过程。模拟过程包括:
(1)构建带有空间结构信息的蛋白质-化合物二分图。二分图表示为Gpd=(Vpd,Epd)。其中,Vpd为图节点,代表组成二分图的M个蛋白质原子和K个化合物原子的结构特征。节点vi∈Vpd,i=1,2,...,M,为蛋白质原子,初始特征为蛋白质三维结构数据;节点vj∈Vpd,j=1,2,...,K,为化合物原子,初始特征为化合物三维结构数据。Epd为图的边,代表蛋白质原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd
(2)将两类原子间相互作用问题可等价于二分图中两类节点的相连问题,根据空间结构求解可结合原子之间的最短空间距离。对蛋白质和化合物小分子在数字孪生三维空间中建模,固定蛋白质位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd
(3)根据最短距离构建二分图中节点间连接关系。基于最短空间距离表示矩阵Dpd,构建蛋白质-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(1)所示。其中,
Figure BDA0003674177150000081
为基于化学结合原理的经验阈值。训练过程中,利用已有标签的数据,即已知的存在DTA或DTI关系的蛋白质-化合物对进行不断训练与优化,也可以获得合适的用于构建邻接矩阵Aij中节点间连接关系的参考阈值。
Figure BDA0003674177150000082
(4)基于邻接矩阵Aij中边连接强弱关系进行空间编码并对其进行学习以获得偏差标量bias。该偏差标量将作为药物靶标相关性强度参数加入Transformer模块的自注意力层。
进一步地,基于蒸馏BERT模型的DTA预测;其中蒸馏BERT模型包括:教师模型和学生模型;教师模型包括1个嵌入层和12个Transformer层;学生模型包括1个嵌入层和6个transformer层。
使用BERT的好处:利用BERT自带的MASK操作,能够帮助模型更好的学习到蛋白质氨基酸序列和化合物SMILES序列上下文信息,实现双向注意。
第一步:训练教师模型,在教师模型训练时使用DTA/DTI数据的真实标签,用真实数据对教师模型进行微调,得到一个准确率高、学习到大量相互作用关系知识的模型。基于蒸馏BERT的药物靶标亲和度预测训练模型如图2所示。
以蛋白质氨基酸序列与化合物SMILES序列为输入,对序列进行输入嵌入和位置嵌入后,送入教师模型的蒸馏BERT模块。教师模型的BERT初始模型采用BERT-based模型,包含1个嵌入层和12个Transformer层。每一层的Transformer共享由数字孪生空间模拟蛋白质-化合物生物反应过程后给出的偏差值bias,即每个Transformer中自注意力层的输出如公式(2)所示,其中Q、K和V分别是自注意力模块的查询(query)、键值(Key)和值(Value),d是隐藏层维度。
Figure BDA0003674177150000091
自注意力层拟采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次Transformer编码结果。经过12层Transformer的分层处理后将最后一层的输出进行拼接,然后送入全连接神经网络,获得输出zti。对输出zti进行温度处理后再进行softmax输出,获得数据的软标签(soft target),定义为pi,结果表示为:
Figure BDA0003674177150000092
使用较大的T值来训练模型,以便复杂的神经网络能够产生更均匀分布的软目标。同时,使用DTA/DTI相关性数据作为真实标签,训练模型。
为了使预训练模型获得捕捉序列的语义信息,在预训练中,分别对氨基酸序列采用基于残基全词遮蔽的遮蔽策略,对SMILES序列采用基于基团全词遮蔽的遮蔽策略。先对残基、基团等进行语料分词,在遮蔽后随即抽取部分词,并对所属选中词的所有字符进行遮蔽。相较完全随机的遮蔽策略,全词遮蔽可以有效提高无监督训练难度,提高模型对于词语语义的理解。
第二步:训练学生模型,在训练学生模型过程中,同样使用蛋白质氨基酸序列和化合物SMLES序列进行训练。学生模型的包含1个嵌入层和6个transformer层。蛋白质氨基酸序列与化合物SMILES序列输入后的输入嵌入、位置嵌入以及偏差处理与教师模型相同。最后一层transformer的输出进行拼接,然后送入全连接神经网络,获得输出zsi。接下来分为两部分:(1)对输出zsi进行与教师模型相同的温度处理。使用与教师模型相同的T值来学习由教师模型产生的软标签,接近这个软标签从而学习到数据的结构分布特征。温度处理后softmax输出,结果表示为qi,求法如上述软标签一样。计算软标签之间交叉熵,定义为Lsoft即第一运算结果:
Figure BDA0003674177150000101
(2)输出zsi不进行温度处理,直接进行softmax输出,结果si表示为:
Figure BDA0003674177150000102
one-hot编码的硬标签(即DTA原始真实标签),表示为ti。学生模型softmax输出si与标注的分类硬标签ti之间进行交叉熵运算,结果表示为Lhard即第二运算结果:
Figure BDA0003674177150000111
然后求解总的损失函数L:
L=λLsoft+(1-λ)Lhard (7)
其中,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
以最小化损失函数L为目标,训练教师模型与学生模型。最后对学生模型进行微调。
第三步:利用最后形成的学生模型预测新的靶标蛋白质,模型包含1个嵌入层和6个Transformer层,最后一层transformer的输出进行拼接,然后送入全连接神经网络,获得最终输出,结果为DTA预测值。用于预测新靶蛋白的基于蒸馏BERT的DTA预测模型,即用于新DTA关系预测的学生模型如图3所示。
本实施例中还对最终获得的DTA预测模型进行验证,具体步骤包括:
(1)数据集
模型训练时,从公开数据集Davis和KIBA上获取数据。Davis数据集包括442种蛋白质与其一级氨基酸序列、68种化合物与其SMILE符号表示序列、30056个蛋白质-化合物对的亲和度值。其中,氨基酸有25种、SMILES符号有62种,亲和度值为Kd。KIBA数据集包括229种蛋白质与其一级氨基酸序列、2111种化合物与其SMILE符号表示序列、118254个蛋白质-化合物对的亲和度值。其中,氨基酸有25种、SMILES符号有62种,亲和度值为KIBA分数。
(2)模型的训练
1)数据划分
Davis数据集:按照5/1将数据划分为训练集与测试集数据,数据随机划分5次。其中,训练集包括:25046个蛋白质-化合物对的亲和度值,测试集包括:5010个蛋白质-化合物对的亲和度值。
KIBA数据集:按照5/1将数据划分为训练集与测试集数据,数据随机划分5次。其中,训练集包括:98545个蛋白质-化合物对的亲和度值,测试集包括:19709个蛋白质-化合物对的亲和度值。
2)训练模型
利用训练集数据训练构建的模型,并保存训练后的模型,该过程重复5次。
(3)利用训练后的模型进行预测
Davis数据集:利用训练后的模型对测试集中5010个蛋白质-化合物对的亲和度值进行预测,该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。
KIBA数据集:利用训练后的模型对测试集中19709个蛋白质-化合物对的亲和度值进行预测,该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。
(4)利用预测结果计算模型评价指标
根据测试集的亲和度真实值与模型输出的预测值,计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值
Figure BDA0003674177150000131
以及CI与
Figure BDA0003674177150000132
的方差。
(5)结果
经过计算,在Davis数据集中,我们模型的结果为:MSE(0.217),CI(0.904),
Figure BDA0003674177150000133
其中,CI与
Figure BDA0003674177150000134
的标准差分别为0.001与0.001。在KIBA数据集中,我们模型的结果为:MSE(0.147),CI(0.894),
Figure BDA0003674177150000135
其中,CI与
Figure BDA0003674177150000136
的标准差分别为0.003与0.007。与本领域已有研究中的部分DTA预测模型进行性能对比,Davis数据集和KIBA数据集上结果比较分别如表1和表2所示。结果显示,本发明基于蒸馏BERT的DTA预测方法优于表里的其他方法。
表1
Figure BDA0003674177150000137
表2
Figure BDA0003674177150000141
(6)结论
在Davis数据集与KIBA数据集中,模型均取得了最高的指标。这表明模型的预测精度优于目前最新的模型,且模型的鲁棒性更强。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。
2.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
3.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,模拟化合物与靶蛋白三维空间生物反应的过程包括:
构建带有空间结构信息的蛋白质-化合物二分图;
基于蛋白质与化合物结合的化学原理,获取两类原子间的最短空间距离;
基于所述最短空间距离,构建所述蛋白质-化合物二分图的邻接矩阵;
基于所述邻接矩阵中的边连接强弱关系进行空间编码并对其进行学习,获得所述偏差标量。
4.根据权利要求3所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述邻接矩阵为:
Figure FDA0003674177140000021
其中,Aij为蛋白质-化合物二分图的邻接矩阵,dij为任意两节点间距离,
Figure FDA0003674177140000022
为基于化学结合原理的经验阈值。
5.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述蒸馏BERT模型包括:教师模型和学生模型;
所述教师模型包括1个嵌入层和12个Transformer层;
所述学生模型包括1个嵌入层和6个transformer层。
6.根据权利要求5所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,对所述蒸馏BERT模型进行训练包括:
将所述药物靶标信息和所述偏差标量输入所述教师模型,获取所述教师模型的输出结果,对所述教师模型的输出结果进行温度处理后进行softmax输出,获取数据的软标签;
将所述药物靶标信息和所述偏差标量输入所述学生模型,获取所述学生模型的输出结果,所述学生模型的输出结果包括第一输出结果和第二输出结果,将所述第一输出结果与所述软标签进行交叉熵运算,获取第一运算结果;将所述第二输出结果与硬标签进行交叉熵运算,获取第二运算结果;其中,所述硬标签为DTA原始真实标签;
基于所述第一运算结果与所述第二运算结果构建损失函数,基于所述损失函数训练所述学生模型,训练后的所述学生模型即为所述DTA预测模型。
7.根据权利要求6所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,
所述第一输出结果与所述软标签进行交叉熵运算前包括:将所述第一输出结果进行温度处理后再进行softmax输出;
所述第二输出结果与所述硬标签进行交叉熵运算前包括:将所述第二输出结果进行softmax输出。
8.根据权利要求6所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述损失函数为:
L=λLsoft+(1-λ)Lhard
其中,L为损失函数,Lsoft为第一运算结果,Lhard为第二运算结果,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
CN202210615644.6A 2022-06-01 2022-06-01 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 Active CN114913917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210615644.6A CN114913917B (zh) 2022-06-01 2022-06-01 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210615644.6A CN114913917B (zh) 2022-06-01 2022-06-01 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法

Publications (2)

Publication Number Publication Date
CN114913917A true CN114913917A (zh) 2022-08-16
CN114913917B CN114913917B (zh) 2023-04-07

Family

ID=82771103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210615644.6A Active CN114913917B (zh) 2022-06-01 2022-06-01 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法

Country Status (1)

Country Link
CN (1) CN114913917B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343911A (zh) * 2023-04-10 2023-06-27 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN117831640A (zh) * 2024-03-05 2024-04-05 青岛国实科技集团有限公司 基于超算的医药产业数字孪生平台
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889179A (zh) * 2021-10-13 2022-01-04 山东大学 基于多视图深度学习的化合物-蛋白质相互作用预测方法
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
US11256994B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity and pose propriety

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256994B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity and pose propriety
CN113889179A (zh) * 2021-10-13 2022-01-04 山东大学 基于多视图深度学习的化合物-蛋白质相互作用预测方法
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343911A (zh) * 2023-04-10 2023-06-27 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN116343911B (zh) * 2023-04-10 2024-03-01 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN117831640A (zh) * 2024-03-05 2024-04-05 青岛国实科技集团有限公司 基于超算的医药产业数字孪生平台
CN117831640B (zh) * 2024-03-05 2024-05-14 青岛国实科技集团有限公司 基于超算的医药产业数字孪生平台
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法
CN117912591B (zh) * 2024-03-19 2024-05-31 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Also Published As

Publication number Publication date
CN114913917B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN114913917B (zh) 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN111444348A (zh) 知识图谱架构的构建与应用方法、系统及介质
CN113140254A (zh) 元学习药物-靶点相互作用预测系统及预测方法
Liu et al. Visual question answering via attention-based syntactic structure tree-LSTM
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN117238436A (zh) 用于药物分子分析设计的模型预训练方法及装置
CN116628212B (zh) 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
Kawano et al. Seq2seq fingerprint with byte-pair encoding for predicting changes in protein stability upon single point mutation
Eliasof et al. Mimetic neural networks: A unified framework for protein design and folding
CN115101145A (zh) 一种基于自适应元学习的药物虚拟筛选方法
Liang et al. Cross-temporal snapshot alignment for dynamic networks
CN117831609A (zh) 一种蛋白质二级结构预测方法、装置及计算机装置
CN116646001B (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
Yao et al. TERQA: question answering over knowledge graph considering precise dependencies of temporal information on vectors
Wang et al. Sparse imbalanced drug-target interaction prediction via heterogeneous data augmentation and node similarity
WO2023148684A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
Ramesh et al. GAN based approach for drug design
Zhang et al. ESSR: Evolving Sparse Sharing Representation for Multi-task Learning
CN115186105A (zh) 实体链接方法及装置
Zeng et al. CLG-Trans: Contrastive learning for code summarization via graph attention-based transformer
Sturtz et al. A Convolutional Denoising Autoencoder for Protein Scaffold Filling
Kurniawan et al. Prediction of protein tertiary structure using pre-trained self-supervised learning based on transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant