CN114913917A - 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 - Google Patents
基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 Download PDFInfo
- Publication number
- CN114913917A CN114913917A CN202210615644.6A CN202210615644A CN114913917A CN 114913917 A CN114913917 A CN 114913917A CN 202210615644 A CN202210615644 A CN 202210615644A CN 114913917 A CN114913917 A CN 114913917A
- Authority
- CN
- China
- Prior art keywords
- model
- protein
- drug target
- distillation
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003596 drug target Substances 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004821 distillation Methods 0.000 title claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 57
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 57
- 150000001875 compounds Chemical class 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 6
- 239000003814 drug Substances 0.000 abstract description 9
- 229940079593 drug Drugs 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000000547 structure data Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000386 microscopy Methods 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000002424 x-ray crystallography Methods 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 101710085938 Matrix protein Proteins 0.000 description 1
- 101710127721 Membrane protein Proteins 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008512 biological response Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Crystallography & Structural Chemistry (AREA)
- Physiology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,包括:获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。
Description
技术领域
本发明属于药物靶标亲和度预测领域,尤其涉及基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法。
背景技术
传统的药物研发过程存在成本高、耗时长、效率低等问题。据统计,一款新药从理论研究到批准上市的平均周期是12年,平均耗资为26亿美金。基于人工智能的虚拟药物筛选可以免去大量传统实验筛选造成的财力、精力、时间消耗,减少药物研发投入,是当前新药物研发技术的热点研究方向。药物靶标亲和度(DTA)预测是虚拟药物筛选的重要环节之一,能够从海量候选化合物中筛选潜在药物,提高新药研制和药物重定位的准确率,实现降本提效。
受限于蛋白质三维结构资源严重缺乏,现有研究方法多基于蛋白质和化合物分子序列或二级结构特征进行DTA预测。然而,该类方法无法充分考虑药物与靶标的空间生物反应过程,导致预测模型缺少生物可解释性,影响了预测结果的可信度。蛋白质三维结构信息缺乏、模型生物可解释性不足等问题,限制了DTA预测技术的进一步发展与应用。
2021年蛋白质结构预测技术取得了变革性突破,AlphaFold2高准确率预测了几乎覆盖人类整个蛋白质组内所有已确定氨基酸序列的单体蛋白质的三维结构信息。这将为DTA预测的研究创造新的契机,有望基于蛋白质三维结构信息,研究药物靶标空间相互作用关系特征,实现具有生物可解释性的精准可信的DTA预测。但是,目前AlphaFold2蛋白质结构预测结果仍不具备像X射线晶体学、核磁共振和冷冻电镜等实验手段获得的蛋白质结构信息的准确性和可用性。因此,不能仅单独依靠AlphaFold2给出的蛋白质结构进行DTA预测。
药物作用的机理是药物与靶标在结合位点的生物反应,因此,蛋白质与化合物三维结构信息的关联融合分析是生物可解释性、高可信度DTA预测的关键。而现有模型无法体现蛋白质与化合物空间生物结合过程。数字孪生能够以数字化的方式建立物理实体的多维、多时空尺度、多学科、多物理量的动态虚拟模型来仿真和刻画物理实体在真实环境中的属性、行为、规则等。因此,可以利用数字孪生技术构建虚实结合的人体蛋白质数字孪生三维空间,在数字孪生空间中模拟蛋白质与化合物空间生物结合过程,与基于人工智能的DTA预测之间实现虚实交互。
蛋白质氨基酸序列与化合物SMILES序列容易获得,可以采用自然语言处理技术进行处理。AlphaFold2模型与数字孪生模型非常大,在训练形成数字孪生空间后,对于新的靶蛋白(单体),可以使用蒸馏模型。因此机器学习算法模块采用蒸馏BERT。
发明内容
为解决上述技术问题,本发明提出了一种基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。
为实现上述目的,本发明提供了基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。
可选地,所述药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
可选地,模拟化合物与靶蛋白三维空间生物反应的过程包括:
构建带有空间结构信息的蛋白质-化合物二分图;
基于蛋白质与化合物结合的化学原理,获取两类原子间的最短空间距离;
基于所述最短空间距离,构建所述蛋白质-化合物二分图的邻接矩阵;
基于所述邻接矩阵中的边连接强弱关系进行空间编码并对其进行学习,获得所述偏差标量。
可选地,所述邻接矩阵为:
可选地,所述蒸馏BERT模型包括:教师模型和学生模型;
所述教师模型包括1个嵌入层和12个Transformer层;
所述学生模型包括1个嵌入层和6个transformer层。
可选地,对所述蒸馏BERT模型进行训练包括:
将所述药物靶标信息和所述偏差标量输入所述教师模型,获取所述教师模型的输出结果,对所述教师模型的输出结果进行温度处理后进行softmax输出,获取数据的软标签;
将所述药物靶标信息和所述偏差标量输入所述学生模型,获取所述学生模型的输出结果,所述学生模型的输出结果包括第一输出结果和第二输出结果,将所述第一输出结果与所述软标签进行交叉熵运算,获取第一运算结果;将所述第二输出结果与硬标签进行交叉熵运算,获取第二运算结果;其中,所述硬标签为DTA原始真实标签;
基于所述第一运算结果与所述第二运算结果构建损失函数,基于所述损失函数训练所述学生模型,训练后的所述学生模型即为所述DTA预测模型。
可选地,所述第一输出结果与所述软标签进行交叉熵运算前包括:将所述第一输出结果进行温度处理后再进行softmax输出;
所述第二输出结果与所述硬标签进行交叉熵运算前包括:将所述第二输出结果进行softmax输出。
可选地,所述损失函数为:
L=λLsoft+(1-λ)Lhard
其中,L为损失函数,Lsoft为第一运算结果,Lhard为第二运算结果,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
与现有技术相比,本发明具有如下优点和技术效果:
本发明首先获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;然后将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;最后构建蒸馏BERT模型,基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练,获取DTA预测模型,用于药物靶标亲和度联合预测。本发明在考虑了药物靶标三维空间生物反应过程的同时,在预测药物靶标亲和度方面具有较高的准确率。同时与现有模型相比本发明DTA预测模型的鲁棒性更强。本方法提出的模型具有较高的生物可解释性,能够为下游苗头化合物的筛选和先导化合物的设计提供高可信度、高精准度的参考依据。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的基于数字孪生与蒸馏BERT的药物靶标亲和度联合预测方法流程示意图;
图2为本发明实施例的基于蒸馏BERT的药物靶标亲和度预测训练模型示意图;
图3为本发明实施例的DTA预测模型示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
如图1所示,本实施例提供了基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将蛋白质三维结构信息与化合物三维结构信息输入数字孪生三维空间,构建以氨基酸残基为中心的三维坐标系,固定蛋白质位置,空间内旋转化合物三维结构,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于药物靶标信息与偏差标量对蒸馏BERT模型进行训练,获取DTA预测模型,基于DTA预测模型完成药物靶标亲和度联合预测。
进一步地,药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
在本实施例中,从PubChem、DrugBank、ChEMBL、PDBbind、BindingDB、Davis和KIBA等数据库收集下载蛋白质和化合物的名称、生物类别、相关疾病、药物靶标相互作用关系(DTI)及药物靶标亲和度(DTA)等数据,整理并构建面向基于机器学习的DTA预测的药物靶标信息。
从PDB数据库下载已经过X射线晶体学、核磁共振和冷冻电镜等实验手段测出的蛋白质三维结构数据。AlphaFold蛋白质结构数据库下载所有AlphaFold2已经预测出来的蛋白质三维结构数据,包括人类蛋白质组。整理并构建面向数字孪生蛋白质三维空间的蛋白质三维结构信息。
从ChEMBL、QM9等数据库下载化合物结构信息,整理并构建化合物三维结构信息库。
进一步地,数字孪生三维空间构建:
根据DTA预测过程的结果,查询化合物三维结构信息库,获取推荐的可行化合物三维结构数据,送入数字孪生分子三维空间,模拟化合物与靶蛋白三维空间生物反应过程。模拟过程包括:
(1)构建带有空间结构信息的蛋白质-化合物二分图。二分图表示为Gpd=(Vpd,Epd)。其中,Vpd为图节点,代表组成二分图的M个蛋白质原子和K个化合物原子的结构特征。节点vi∈Vpd,i=1,2,...,M,为蛋白质原子,初始特征为蛋白质三维结构数据;节点vj∈Vpd,j=1,2,...,K,为化合物原子,初始特征为化合物三维结构数据。Epd为图的边,代表蛋白质原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd。
(2)将两类原子间相互作用问题可等价于二分图中两类节点的相连问题,根据空间结构求解可结合原子之间的最短空间距离。对蛋白质和化合物小分子在数字孪生三维空间中建模,固定蛋白质位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd。
(3)根据最短距离构建二分图中节点间连接关系。基于最短空间距离表示矩阵Dpd,构建蛋白质-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(1)所示。其中,为基于化学结合原理的经验阈值。训练过程中,利用已有标签的数据,即已知的存在DTA或DTI关系的蛋白质-化合物对进行不断训练与优化,也可以获得合适的用于构建邻接矩阵Aij中节点间连接关系的参考阈值。
(4)基于邻接矩阵Aij中边连接强弱关系进行空间编码并对其进行学习以获得偏差标量bias。该偏差标量将作为药物靶标相关性强度参数加入Transformer模块的自注意力层。
进一步地,基于蒸馏BERT模型的DTA预测;其中蒸馏BERT模型包括:教师模型和学生模型;教师模型包括1个嵌入层和12个Transformer层;学生模型包括1个嵌入层和6个transformer层。
使用BERT的好处:利用BERT自带的MASK操作,能够帮助模型更好的学习到蛋白质氨基酸序列和化合物SMILES序列上下文信息,实现双向注意。
第一步:训练教师模型,在教师模型训练时使用DTA/DTI数据的真实标签,用真实数据对教师模型进行微调,得到一个准确率高、学习到大量相互作用关系知识的模型。基于蒸馏BERT的药物靶标亲和度预测训练模型如图2所示。
以蛋白质氨基酸序列与化合物SMILES序列为输入,对序列进行输入嵌入和位置嵌入后,送入教师模型的蒸馏BERT模块。教师模型的BERT初始模型采用BERT-based模型,包含1个嵌入层和12个Transformer层。每一层的Transformer共享由数字孪生空间模拟蛋白质-化合物生物反应过程后给出的偏差值bias,即每个Transformer中自注意力层的输出如公式(2)所示,其中Q、K和V分别是自注意力模块的查询(query)、键值(Key)和值(Value),d是隐藏层维度。
自注意力层拟采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次Transformer编码结果。经过12层Transformer的分层处理后将最后一层的输出进行拼接,然后送入全连接神经网络,获得输出zti。对输出zti进行温度处理后再进行softmax输出,获得数据的软标签(soft target),定义为pi,结果表示为:
使用较大的T值来训练模型,以便复杂的神经网络能够产生更均匀分布的软目标。同时,使用DTA/DTI相关性数据作为真实标签,训练模型。
为了使预训练模型获得捕捉序列的语义信息,在预训练中,分别对氨基酸序列采用基于残基全词遮蔽的遮蔽策略,对SMILES序列采用基于基团全词遮蔽的遮蔽策略。先对残基、基团等进行语料分词,在遮蔽后随即抽取部分词,并对所属选中词的所有字符进行遮蔽。相较完全随机的遮蔽策略,全词遮蔽可以有效提高无监督训练难度,提高模型对于词语语义的理解。
第二步:训练学生模型,在训练学生模型过程中,同样使用蛋白质氨基酸序列和化合物SMLES序列进行训练。学生模型的包含1个嵌入层和6个transformer层。蛋白质氨基酸序列与化合物SMILES序列输入后的输入嵌入、位置嵌入以及偏差处理与教师模型相同。最后一层transformer的输出进行拼接,然后送入全连接神经网络,获得输出zsi。接下来分为两部分:(1)对输出zsi进行与教师模型相同的温度处理。使用与教师模型相同的T值来学习由教师模型产生的软标签,接近这个软标签从而学习到数据的结构分布特征。温度处理后softmax输出,结果表示为qi,求法如上述软标签一样。计算软标签之间交叉熵,定义为Lsoft即第一运算结果:
(2)输出zsi不进行温度处理,直接进行softmax输出,结果si表示为:
one-hot编码的硬标签(即DTA原始真实标签),表示为ti。学生模型softmax输出si与标注的分类硬标签ti之间进行交叉熵运算,结果表示为Lhard即第二运算结果:
然后求解总的损失函数L:
L=λLsoft+(1-λ)Lhard (7)
其中,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
以最小化损失函数L为目标,训练教师模型与学生模型。最后对学生模型进行微调。
第三步:利用最后形成的学生模型预测新的靶标蛋白质,模型包含1个嵌入层和6个Transformer层,最后一层transformer的输出进行拼接,然后送入全连接神经网络,获得最终输出,结果为DTA预测值。用于预测新靶蛋白的基于蒸馏BERT的DTA预测模型,即用于新DTA关系预测的学生模型如图3所示。
本实施例中还对最终获得的DTA预测模型进行验证,具体步骤包括:
(1)数据集
模型训练时,从公开数据集Davis和KIBA上获取数据。Davis数据集包括442种蛋白质与其一级氨基酸序列、68种化合物与其SMILE符号表示序列、30056个蛋白质-化合物对的亲和度值。其中,氨基酸有25种、SMILES符号有62种,亲和度值为Kd。KIBA数据集包括229种蛋白质与其一级氨基酸序列、2111种化合物与其SMILE符号表示序列、118254个蛋白质-化合物对的亲和度值。其中,氨基酸有25种、SMILES符号有62种,亲和度值为KIBA分数。
(2)模型的训练
1)数据划分
Davis数据集:按照5/1将数据划分为训练集与测试集数据,数据随机划分5次。其中,训练集包括:25046个蛋白质-化合物对的亲和度值,测试集包括:5010个蛋白质-化合物对的亲和度值。
KIBA数据集:按照5/1将数据划分为训练集与测试集数据,数据随机划分5次。其中,训练集包括:98545个蛋白质-化合物对的亲和度值,测试集包括:19709个蛋白质-化合物对的亲和度值。
2)训练模型
利用训练集数据训练构建的模型,并保存训练后的模型,该过程重复5次。
(3)利用训练后的模型进行预测
Davis数据集:利用训练后的模型对测试集中5010个蛋白质-化合物对的亲和度值进行预测,该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。
KIBA数据集:利用训练后的模型对测试集中19709个蛋白质-化合物对的亲和度值进行预测,该过程重复5次(使用来自5次训练后保存的5个模型)。保存预测结果。
(4)利用预测结果计算模型评价指标
(5)结果
经过计算,在Davis数据集中,我们模型的结果为:MSE(0.217),CI(0.904),其中,CI与的标准差分别为0.001与0.001。在KIBA数据集中,我们模型的结果为:MSE(0.147),CI(0.894),其中,CI与的标准差分别为0.003与0.007。与本领域已有研究中的部分DTA预测模型进行性能对比,Davis数据集和KIBA数据集上结果比较分别如表1和表2所示。结果显示,本发明基于蒸馏BERT的DTA预测方法优于表里的其他方法。
表1
表2
(6)结论
在Davis数据集与KIBA数据集中,模型均取得了最高的指标。这表明模型的预测精度优于目前最新的模型,且模型的鲁棒性更强。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,包括:
获取药物靶标信息、蛋白质三维结构信息和化合物三维结构信息;
将所述蛋白质三维结构信息与所述化合物三维结构信息输入数字孪生三维空间,模拟化合物与靶蛋白三维空间生物反应,获取偏差标量;
构建蒸馏BERT模型,基于所述药物靶标信息与所述偏差标量对所述蒸馏BERT模型进行训练,获取DTA预测模型,基于所述DTA预测模型完成药物靶标亲和度联合预测。
2.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述药物靶标信息包括:蛋白质氨基酸序列、化合物SMLES序列、DTA与DTI数据。
3.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,模拟化合物与靶蛋白三维空间生物反应的过程包括:
构建带有空间结构信息的蛋白质-化合物二分图;
基于蛋白质与化合物结合的化学原理,获取两类原子间的最短空间距离;
基于所述最短空间距离,构建所述蛋白质-化合物二分图的邻接矩阵;
基于所述邻接矩阵中的边连接强弱关系进行空间编码并对其进行学习,获得所述偏差标量。
5.根据权利要求1所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述蒸馏BERT模型包括:教师模型和学生模型;
所述教师模型包括1个嵌入层和12个Transformer层;
所述学生模型包括1个嵌入层和6个transformer层。
6.根据权利要求5所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,对所述蒸馏BERT模型进行训练包括:
将所述药物靶标信息和所述偏差标量输入所述教师模型,获取所述教师模型的输出结果,对所述教师模型的输出结果进行温度处理后进行softmax输出,获取数据的软标签;
将所述药物靶标信息和所述偏差标量输入所述学生模型,获取所述学生模型的输出结果,所述学生模型的输出结果包括第一输出结果和第二输出结果,将所述第一输出结果与所述软标签进行交叉熵运算,获取第一运算结果;将所述第二输出结果与硬标签进行交叉熵运算,获取第二运算结果;其中,所述硬标签为DTA原始真实标签;
基于所述第一运算结果与所述第二运算结果构建损失函数,基于所述损失函数训练所述学生模型,训练后的所述学生模型即为所述DTA预测模型。
7.根据权利要求6所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,
所述第一输出结果与所述软标签进行交叉熵运算前包括:将所述第一输出结果进行温度处理后再进行softmax输出;
所述第二输出结果与所述硬标签进行交叉熵运算前包括:将所述第二输出结果进行softmax输出。
8.根据权利要求6所述的基于数字孪生与蒸馏BERT的药物靶标亲和度预测方法,其特征在于,所述损失函数为:
L=λLsoft+(1-λ)Lhard
其中,L为损失函数,Lsoft为第一运算结果,Lhard为第二运算结果,λ为两个损失函数Lsoft和Lhard之间的平衡参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615644.6A CN114913917B (zh) | 2022-06-01 | 2022-06-01 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615644.6A CN114913917B (zh) | 2022-06-01 | 2022-06-01 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114913917A true CN114913917A (zh) | 2022-08-16 |
CN114913917B CN114913917B (zh) | 2023-04-07 |
Family
ID=82771103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210615644.6A Active CN114913917B (zh) | 2022-06-01 | 2022-06-01 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913917B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343911A (zh) * | 2023-04-10 | 2023-06-27 | 徐州医科大学 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
CN117831640A (zh) * | 2024-03-05 | 2024-04-05 | 青岛国实科技集团有限公司 | 基于超算的医药产业数字孪生平台 |
CN117912591A (zh) * | 2024-03-19 | 2024-04-19 | 鲁东大学 | 一种基于深度对比学习的激酶药物相互作用预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889179A (zh) * | 2021-10-13 | 2022-01-04 | 山东大学 | 基于多视图深度学习的化合物-蛋白质相互作用预测方法 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
US11256994B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for prediction of protein-ligand bioactivity and pose propriety |
-
2022
- 2022-06-01 CN CN202210615644.6A patent/CN114913917B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11256994B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for prediction of protein-ligand bioactivity and pose propriety |
CN113889179A (zh) * | 2021-10-13 | 2022-01-04 | 山东大学 | 基于多视图深度学习的化合物-蛋白质相互作用预测方法 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343911A (zh) * | 2023-04-10 | 2023-06-27 | 徐州医科大学 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
CN116343911B (zh) * | 2023-04-10 | 2024-03-01 | 徐州医科大学 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
CN117831640A (zh) * | 2024-03-05 | 2024-04-05 | 青岛国实科技集团有限公司 | 基于超算的医药产业数字孪生平台 |
CN117831640B (zh) * | 2024-03-05 | 2024-05-14 | 青岛国实科技集团有限公司 | 基于超算的医药产业数字孪生平台 |
CN117912591A (zh) * | 2024-03-19 | 2024-04-19 | 鲁东大学 | 一种基于深度对比学习的激酶药物相互作用预测方法 |
CN117912591B (zh) * | 2024-03-19 | 2024-05-31 | 鲁东大学 | 一种基于深度对比学习的激酶药物相互作用预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114913917B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913917B (zh) | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 | |
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
CN111444348A (zh) | 知识图谱架构的构建与应用方法、系统及介质 | |
CN113140254A (zh) | 元学习药物-靶点相互作用预测系统及预测方法 | |
Liu et al. | Visual question answering via attention-based syntactic structure tree-LSTM | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
CN117238436A (zh) | 用于药物分子分析设计的模型预训练方法及装置 | |
CN116628212B (zh) | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 | |
CN116206688A (zh) | 一种用于dta预测的多模态信息融合模型及方法 | |
Kawano et al. | Seq2seq fingerprint with byte-pair encoding for predicting changes in protein stability upon single point mutation | |
Eliasof et al. | Mimetic neural networks: A unified framework for protein design and folding | |
CN115101145A (zh) | 一种基于自适应元学习的药物虚拟筛选方法 | |
Liang et al. | Cross-temporal snapshot alignment for dynamic networks | |
CN117831609A (zh) | 一种蛋白质二级结构预测方法、装置及计算机装置 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
Yao et al. | TERQA: question answering over knowledge graph considering precise dependencies of temporal information on vectors | |
Wang et al. | Sparse imbalanced drug-target interaction prediction via heterogeneous data augmentation and node similarity | |
WO2023148684A1 (en) | Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation | |
Ramesh et al. | GAN based approach for drug design | |
Zhang et al. | ESSR: Evolving Sparse Sharing Representation for Multi-task Learning | |
CN115186105A (zh) | 实体链接方法及装置 | |
Zeng et al. | CLG-Trans: Contrastive learning for code summarization via graph attention-based transformer | |
Sturtz et al. | A Convolutional Denoising Autoencoder for Protein Scaffold Filling | |
Kurniawan et al. | Prediction of protein tertiary structure using pre-trained self-supervised learning based on transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |