CN116486900B - 基于深度模态数据融合的药物靶标亲和度预测方法 - Google Patents
基于深度模态数据融合的药物靶标亲和度预测方法 Download PDFInfo
- Publication number
- CN116486900B CN116486900B CN202310461200.6A CN202310461200A CN116486900B CN 116486900 B CN116486900 B CN 116486900B CN 202310461200 A CN202310461200 A CN 202310461200A CN 116486900 B CN116486900 B CN 116486900B
- Authority
- CN
- China
- Prior art keywords
- sequence
- protein
- drug
- module
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000003596 drug target Substances 0.000 title claims abstract description 22
- 239000003814 drug Substances 0.000 claims abstract description 138
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 136
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 136
- 229940079593 drug Drugs 0.000 claims abstract description 98
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 230000001360 synchronised effect Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 42
- 150000001413 amino acids Chemical class 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 102100033130 T-box transcription factor T Human genes 0.000 claims description 9
- 101710086566 T-box transcription factor T Proteins 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims description 2
- 239000007924 injection Substances 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 3
- 101800001646 Protein n Proteins 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了基于深度模态数据融合的药物靶标亲和度预测方法,涉及大数据技术领域,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;然后,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;接着,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而更准确的挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;最后,对模态融合结果进行解码,获得DTA预测结果。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及基于深度模态数据融合的药物靶标亲和度预测方法。
背景技术
药物靶标亲和性(Drug-target affinity,DTA)预测在药物发现中发挥着重要作用,因为它能够从大量候选化合物中筛选潜在药物,并描述药物靶标对中相互作用的强度。然而,通过大规模化学或生物实验进行DTA预测的工作大多需要消耗大量的时间、资源和成本。随着药物、靶点和相互作用数据的不断积累,通过计算机辅助药物设计技术,相关领域已经开发了诸多方法来预测DTA。由于深度学习的突破和计算能力的巨大提升,基于深度学习的DTA预测模型已逐渐应用于预测药物与靶标的结合亲和力。虽然部分模型已经取得了良好的预测性能,但是仍存在一些问题。例如,现有的计算模型在预测精度、鲁棒性和泛化能力方面仍有很大的改进空间;大多数用于DTA预测的深度学习模型缺乏可解释性分析,这在一定程度上降低了它们在实际应用中的可信度。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供一种基于深度模态数据融合的药物靶标亲和度预测方法。
本发明为解决上述技术问题采用以下技术方案:
基于深度模态数据融合的药物靶标亲和度预测方法,包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分,具体包含如下步骤,
步骤1,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;
步骤2,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;
步骤3,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;
步骤4,对模态融合结果进行解码,获得蛋白质和药物之间的结合亲和力的预测结果。
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达,基于BPE算法获得的二级序列词汇表,通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列。
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,利用BPE算法对序列进行分词处理,利用大量未标记序列构建蛋白质和药物二级序列词汇表,具体如下:
步骤1.1,从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载蛋白质FASTA序列和药物SMILES序列,其中包括无标签数据;
步骤1.2,初始化由单个氨基酸字符或SMILES字符组成的词汇表,使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘,形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表;
步骤1.3,对于蛋白质,取前vs个词汇构成最终的词汇表VT;对于药物,取前qs个词汇构成最终的词汇表VD;
步骤1.4,分别利用二级序列词汇表VT和VD对蛋白质FASTA序列和药物SMILES序列进行二级序列表达,获得蛋白质的二级序列ST和药物的二级序列SD。
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列,分别对完整序列和二级序列进行编码,获得编码输出;以蛋白质的编码过程为例,对序列编码模块的工作过程进行具体介绍:
(1)完整序列编码
蛋白质FASTA序列由不同的氨基酸组成,将由氨基酸构成的原始完整序列T表示为
T={t1,t2,…,ti,…,tn},ti∈Nt (1)
ti表示蛋白质序列中第i个氨基酸,Nt表示氨基酸集合,包含了常见的25个氨基酸,n为输入蛋白质的长度,定义最大蛋白质的长度为l,对完整序列进行编码,包括嵌入和位置编码;
嵌入:以序列T为输入,对蛋白质完整序列进行嵌入,获得输出该过程为线性转换过程,嵌入层具有可训练权重其中v表示上述氨基酸集合的大小,e表示氨基酸嵌入的大小;
位置编码:为了添加蛋白质T中每个氨基酸的相对或绝对位置信息,还需要进行位置编码;以序列T为输入,对蛋白质完整序列进行位置编码,输出为表示了T中所有氨基酸的位置编码,定义为
其中,i是位置,j是维度,d是氨基酸位置编码的大小;PET(i,:)是矩阵PET的第i行,表示蛋白质T中第i个氨基酸的位置编码;当蛋白质的长度n<l时,n+1至l的部分为0;这里设置位置编码大小等于嵌入大小,即d=e;因此可以直接令PET和ET两者相加;
定义XWT为完整序列编码的输出,结果可表示为
XWT=ET+PET (4)
(2)二级序列编码
在二级序列编码模块中,以蛋白质的二级序列ST为输入,对二级序列进行嵌入和位置嵌入;
嵌入:对二级序列ST进行编码,获得矩阵其中Lt为最大蛋白质的二级序列的长度,vs为蛋白质二级序列词汇表VT的大小;以MST为输入,对二级序列进行嵌入操作,输出为其中es为每个二级序列嵌入的大小;嵌入层具有可训练权重其中vs表示上述蛋白质二级序列词汇表的大小;
位置嵌入:对蛋白质的二级序列进行单独的hot vector位置编码,结果表示为IST;以IST为输入,对二级序列进行位置嵌入,输出PEST可表示为
其中为位置嵌入层的位置查询词典;
定义XST为二级序列编码的输出,结果可表示为
XST=EST+PEST (6)
(3)池化
对完整序列的编码结果XWT进行池化操作,使其维度与二级序列编码结果XST的维度相同;定义XWT池化的结果为XWT1,将该结果与XST相加,获得蛋白质的序列编码模块的输出XT,表示为
(4)药物的序列编码
药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似;将药物SMILES序列D的数学表达式表示为
D={d1,d2,…,di,…,dm},di∈Nd (8)
di表示药物序列中第i个SMILES字符;Nd表示包含62个SMILES字符的SMILES集合;药物D的SMILES序列长度m是不固定的。定义最大药物的长度为z,因此m≤z;
药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小;此处设置氨基酸和SMILES字符具有相同的嵌入大小,即f=e;药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中Ld为最大药物的二级序列的长度,且Ld<z,fs为药物二级序列嵌入的大小;此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小,即fs=es;对药物完整序列编码结果XWD进行池化操作,结果为XWD1,其维度与二级序列encoding结果XSD的维度相同,即最终获得药物SMILES序列的序列编码模块输出XD,表示为
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤2中,特征提取模块主要由两个Transformer组成,其输入为已编码的蛋白质和药物XT和XD,经过Transformer特征提取后获得该模块的输出XAT和XAD,该模块的Transformer编码器主要包含了两个子层,分别是多头注意力层和前馈层;
(1)多头注意力层
特征提取模块的Transformer工作机理主要是基于自注意力机制进行特征提取;自注意力模块主要包括线性转换层,带缩放点积注意力层与合并层;对输入信号XT(XD)进行线性转换,获得矩阵QL=KL=VL,dk=dv,其中n为蛋白质或药物的最大长度n=Ltarget或n=Ldrug;将QL、KL以及VL输入到带缩放点积注意力层,对QL和KL进行点积计算并将结果除以然后使用softmax获取VL的权重,最终获得带缩放点积注意力层的输出,表示为
采用多头注意力机制来共同关注不同位置的不同表达子空间的信息,多头注意力层包含h个平行运行的带缩放点积注意力层;线性转换层的输入Q=K=V是Transformer编码模块的输入XT或XD;
将es维矩阵Q、K和V进行线性投影h次,分别获得h个QL矩阵、h个KL矩阵和h个VL矩阵;
利用带缩放点积注意力层处理QL、KL和VL,获得第i个带缩放点积注意力层的输出headi,i=1,2,...,h。
其中,为线性投影矩阵;
将带缩放点积注意力层的输出进行连接并传递至线性转换层,得到多头注意力层的输出,表示为
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (12)
其中,WO为线性投影矩阵;
(2)前馈层
前馈层由2个线性变换和ReLU激活组成,连接顺序为线性变换——ReLU激活——线性变换;多头注意力层的输出结果MultiHead(Q,K,V)在输入至前馈层获得输出;另外,在多头注意力层和前馈层两个子层的每一层周围都应用了一个残差连接和层规范化,以解决多层网络训练问题和加速收敛;
经过两次Transformer特征提取处理后,获得特征提取模块的输出,即蛋白质特征XAT和药物特征XAD。
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤3中,构建了一个模态融合模块,由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合,将蛋白质特征XAT和药物特征XAD输入模态融合模块,利用交叉注意模块实现药物对蛋白质的关注,经由repeat、reshape和卷积操作后馈入十字交叉注模块,输出模态融合的结果;具体过程如下:
首先,将蛋白质特征XAT和药物特征XAD输入交叉注意模块,其中,查询query、键值key和值value的计算方法与上述特征提取模块中标准注意力机制的方法相同,query为蛋白质特征XAT,key和value为蛋白质特征XAD,从而实现药物到蛋白质的交叉关注;对输入XAT和XAD进行线性投影,分别得到矩阵Qca和Kca=Vca,其中 dk1=dv1=ed/h;给定Qca、Kca和Vca,应用带缩放点积注意力机制来获得交叉注意模块的输出XAT1;
分别对D2T融合特征XAT1和药物特征XAD进行repeat操作,获得特征矩阵XAT2和XAD2;将XAT2和XAD2按元素相乘并进行reshape处理和3x3卷积计算,获得特征矩阵X;
将矩阵X输入到十字交叉注意模块,对X进1×1卷积计算和线性转换,分别生成两个特征矩阵Qcc和Kcc;对QCC和KCC进行相关度计算:在Qcc空间维度的每个位置u,获得一个向量Qu,然后通过与位置u在同一行或列中的Kcc提取特征向量,构成集合Ωu;对相关度计算进行表示,如式(13)所示
其中,Ωi,u是Ωu的第i个元素,bi,u∈B是Ωu和Ωi,u之间的相关度,i=[1,…,(Ld+Lt-1)];在此基础上,对矩阵B进行softmax处理,计算得出注意力矩阵A;
再对X进行1×1的卷积计算和线性转换,获得特征自适应矩阵Vcc;在Vcc空间维度的每个位置u,可以获得一个向量Vu和一个集合Φu,其中集合Φu是矩阵Vcc中以u为中心的十字交叉结构的特征向量集合,在此基础上进行邻居节点间信息聚合计算,计算公式如下:
其中,X'是十字交叉注意模块的输出,即为模态融合模块的输出,X′u是X'在位置u处的特征向量,Ai,u是注意力矩阵A中位置u处的第i个标量值;通过上述十字交叉注意模块的处理,同一行和同一列中的邻居信息均被添加到特征X中,从而实现蛋白质与药物之间的特征交互融合。
作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤4中,对模态融合的输出X'进行解码,以获得DTA预测结果,解码器模块由3个前馈层和1个线性层组成;
其中,第一个前馈层包含线性层和ReLU激活,接下来的两个前馈层包含线性层、ReLU激活和层规范化,将X'发送到解码模块,以获得DTA模型的输出Y,该输出Y即为蛋白质T和药物D之间的DTA预测得分,用于评价蛋白质与药物之间的相关性程度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明基于深度模态数据融合的药物靶标亲和度预测方法,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而更准确的挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;对模态融合结果进行解码,获得DTA预测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明模型框架图;
图2是本发明自注意力机制框架图;
图3是本发明交叉注意模块框架图;
图4是本发明十字交叉注意模块框架图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于深度模态数据融合的药物靶标亲和度预测方法提出的模型由四个部分组成,分别是序列编码模块、特征提取模块、模态融合模块、解码模块,如图1所示。该模型以蛋白质的FASTA序列和药物的SMILES序列为输入,首先在序列编码模块对完整序列和二级序列进行编码。然后基于Transformer蛋白质和药物编码结果进行特征提取。接着,依次使用交叉注意机制和十字交叉注意机制对蛋白质特征和药物特征之间的相互关系进行进一步挖掘与学习。最后,对学习结果进行解码,获得蛋白质和药物之间的结合亲和力的预测结果。输入信号的表示:
使用化合物的SMILES线性字符串描述符来表示药物,蛋白质的氨基酸序列(FASTA)来表示蛋白质。因在序列编码模块部分设计了二级序列编码,因此,需要分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达。本发明基于BPE算法获得的二级序列词汇表,然后通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列。
BPE算法是一种可用于自然语言处理的数据压缩技术,它用一个未使用的字节反复替换序列中最频繁的字节对。在本方法中,利用BPE算法对序列进行分词处理,利用大量未标记序列构建蛋白质/药物二级序列词汇表。该词汇表包含了在完整序列中出现频率较高的连续二级序列,能够从生物学角度出发能够很好的体现原子间的关联性。因此,利用二级序列词汇表对完整序列进行二级序列编码和特征提取,将非常有利于在DTA模型中捕获有意义的生物医学语义。
首先,从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质FASTA序列和药物SMILES序列,其中包括大量无标签数据。然后,初始化由单个氨基酸字符或SMILES字符组成的词汇表,使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘,形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表。对于蛋白质,取前vs个词汇构成最终的词汇表VT;对于药物,取前qs个词汇构成最终的词汇表VD。在此基础上,分别利用二级序列词汇表VT和VD对蛋白质FASTA序列和药物SMILES序列进行二级序列表达,获得蛋白质的二级序列ST和药物的二级序列SD。
序列编码模块:
序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列。分别对完整序列和二级序列进行编码,获得编码输出。蛋白质与药物的编码过程相似,下面以蛋白质的编码过程为例,对序列编码模块的工作过程进行具体介绍:
(1)完整序列编码
蛋白质FASTA序列由不同的氨基酸组成。将由氨基酸构成的原始完整序列T表示为
T={t1,t2,…,ti,…,tn},ti∈Nt (1)
ti表示蛋白质序列中第i个氨基酸,Nt表示氨基酸集合,包含了常见的25个氨基酸。n为输入蛋白质的长度。定义最大蛋白质的长度为l。下面对完整序列进行编码,包括嵌入和位置编码。
嵌入:以序列T为输入,对蛋白质完整序列进行嵌入,获得输出该过程为线性转换过程,嵌入层具有可训练权重其中v表示上述氨基酸集合的大小,e表示氨基酸嵌入的大小。
位置编码:为了添加蛋白质T中每个氨基酸的相对或绝对位置信息,还需要进行位置编码。以序列T为输入,对蛋白质完整序列进行位置编码,输出为表示了T中所有氨基酸的位置编码,定义为
其中,i是位置,j是维度,d是氨基酸位置编码的大小。PET(i,:)是矩阵PET的第i行,表示蛋白质T中第i个氨基酸的位置编码。当蛋白质的长度n<l时,n+1至l的部分为0。这里设置位置编码大小等于嵌入大小,即d=e。因此可以直接令PET和ET两者相加。
定义XWT为完整序列编码的输出,结果可表示为
XWT=ET+PET (4)
(2)二级序列编码
在二级序列编码模块中,以蛋白质的二级序列ST为输入,对二级序列进行嵌入和位置嵌入。
嵌入:对二级序列ST进行编码,获得矩阵其中Lt为最大蛋白质的二级序列的长度,vs为蛋白质二级序列词汇表VT的大小。以MST为输入,对二级序列进行嵌入操作,输出为其中es为每个二级序列嵌入的大小。嵌入层具有可训练权重其中vs表示上述蛋白质二级序列词汇表的大小。
位置嵌入:对蛋白质的二级序列进行单独的hot vector位置编码,结果表示为IST。以IST为输入,对二级序列进行位置嵌入,输出PEST可表示为
其中为位置嵌入层的位置查询词典。
定义XST为二级序列编码的输出,结果可表示为
XST=EST+PEST (6)
(3)池化
对完整序列的编码结果XWT进行池化操作,使其维度与二级序列编码结果XST的维度相同。定义XWT池化的结果为XWT1,将该结果与XST相加,获得蛋白质的序列编码模块的输出XT,表示为
(4)药物的序列编码
药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似。将药物SMILES序列D的数学表达式表示为
D={d1,d2,…,di,…,dm},di∈Nd (8)
di表示药物序列中第i个SMILES字符。Nd表示包含62个SMILES字符的SMILES集合。药物D的SMILES序列长度m是不固定的。定义最大药物的长度为z,因此m≤z。
药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小。此处设置氨基酸和SMILES字符具有相同的嵌入大小,即f=e。药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中Ld为最大药物的二级序列的长度,且Ld<z,fs为药物二级序列嵌入的大小。此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小,即fs=es。对药物完整序列编码结果XWD进行池化操作,结果为XWD1,其维度与二级序列encoding结果XSD的维度相同,即最终获得药物SMILES序列的序列编码模块输出XD,表示为
特征提取模块:
特征提取模块主要由两个Transformer组成,如图2所示,其输入为已编码的蛋白质和药物XT和XD,经过Transformer特征提取后获得该模块的输出XAT和XAD。该模块的Transformer编码器主要包含了两个子层,分别是多头注意力层和前馈层。
自注意力机制框架图如图2所示;
(1)多头注意力层
特征提取模块的Transformer工作机理主要是基于自注意力机制进行特征提取。自注意力模块主要包括线性转换层,带缩放点积注意力层与合并层。对输入信号XT(XD)进行线性转换,获得矩阵QL=KL=VL,dk=dv,其中n为蛋白质或药物的最大长度(n=Ltarget或n=Ldrug)。将(query)QL、(key)KL以及(value)VL输入到带缩放点积注意力层,对QL和KL进行点积计算并将结果除以然后使用softmax获取VL的权重,最终获得带缩放点积注意力层的输出,表示为
本模型采用多头注意力机制来共同关注不同位置的不同表达子空间的信息。本模型中的多头注意力层包含h个平行运行的带缩放点积注意力层。这里,线性转换层的输入Q=K=V是Transformer编码模块的输入XT或XD。首先,将es维矩阵Q、K和V进行线性投影h次,分别获得h个QL矩阵、h个KL矩阵和h个VL矩阵。然后,利用带缩放点积注意力层处理QL、KL和VL,获得第i个带缩放点积注意力层的输出headi,i=1,2,...,h。
其中,为线性投影矩阵。最后,将带缩放点积注意力层的输出进行连接并传递至线性转换层,得到多头注意力层的输出,表示为
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (12)
其中,WO为线性投影矩阵。
(2)前馈层
前馈层由2个线性变换和ReLU激活组成,连接顺序为线性变换——ReLU激活——线性变换。多头注意力层的输出结果MultiHead(Q,K,V)在输入至前馈层获得输出。另外,在多头注意力层和前馈层两个子层的每一层周围都应用了一个残差连接和层规范化,以解决多层网络训练问题和加速收敛。
经过两次Transformer特征提取处理后,获得特征提取模块的输出,即蛋白质特征XAT和药物特征XAD。
模态融合模块:
为了挖掘两种模态特征的相关性,实现蛋白质序列和药物序列之间的双向交互,本发明构建了一个模态融合模块。该模块主要由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合,将蛋白质特征XAT和药物特征XAD输入模态融合模块,首先利用交叉注意模块实现药物对蛋白质的关注,然后经由repeat、reshape和卷积操作后馈入十字交叉注模块,最终输出模态融合的结果。具体过程如下:
首先,将蛋白质特征XAT和药物特征XAD输入交叉注意模块,如图3所示。该模块查询(query)、键值(key)和值(value)的计算方法与上述特征提取模块中标准注意力机制的方法相同,但是数据来源不同。该模块中,query为蛋白质特征XAT,key和value为蛋白质特征XAD,从而实现药物到蛋白质的交叉关注。对输入XAT和XAD进行线性投影,分别得到矩阵Qca和Kca=Vca,其中dk1=dv1=es/h。然后,给定Qca、Kca和Vca,应用带缩放点积注意力机制来获得交叉注意模块的输出XAT1。
交叉注意模块框架图如图3所示;
然后,分别对D2T融合特征XAT1和药物特征XAD进行repeat操作,获得特征矩阵XAT2和XAD2。将XAT2和XAD2按元素相乘并进行reshape处理和3x3卷积计算,获得特征矩阵X。
最后,将矩阵X输入到十字交叉注意模块,如图4所示。对X进1×1卷积计算和线性转换,分别生成两个特征矩阵Qcc和Kcc。对QCC和JCC进行相关度计算:在Qcc空间维度的每个位置u,可以获得一个向量Qu,然后通过与位置u在同一行或列中的Kcc提取特征向量,构成集合Ωu。对相关度计算进行表示,如式(13)所示
其中,Ωi,u是Ωu的第i个元素,bi,u∈B是Ωu和Ωi,u之间的相关度,i=[1,…,(Ld+Lt-1)];在此基础上,对矩阵B进行softmax处理,计算得出注意力矩阵A。
十字交叉注意模块框架图如图4所示;
再对X进行1×1的卷积计算和线性转换,获得特征自适应矩阵Vcc。在Vcc空间维度的每个位置u,可以获得一个向量Vu和一个集合Φu,其中集合Φu是矩阵Vcc中以u为中心的十字交叉结构的特征向量集合。在此基础上进行邻居节点间信息聚合计算,计算公式如下:
其中,X'是十字交叉注意模块的输出,即为模态融合模块的输出,X'u是X'在位置u处的特征向量,Ai,u是注意力矩阵A中位置u处的第i个标量值。通过上述十字交叉注意模块的处理,同一行和同一列中的邻居信息均被添加到特征X中,从而实现蛋白质与药物之间的特征交互融合。
解码模块:
在该模型的最后,对模态融合的输出X'进行解码,以获得DTA预测结果。解码器模块由3个前馈层和1个线性层组成。第一个前馈层包含线性层和ReLU激活,接下来的两个前馈层包含线性层、ReLU激活和层规范化。将X'发送到解码模块,以获得DTA模型的输出Y,该输出Y即为蛋白质T和药物D之间的DTA预测得分,用于评价蛋白质与药物之间的相关性程度。
仿真验证:
本发明使用两个常见的基准数据集KIBA和Davis来评估本模型;其中,Davis数据集包含442个激酶蛋白和68个抑制剂(药物),形成了30056个药物-靶标对,通过解离常数(Kd)值测量。KIBA数据集包含229种蛋白质和2111种药物,形成了118254个药物-靶标对。按照5/1将数据划分为训练集与测试集数据,数据随机划分5次。根据测试集的亲和度真实值与模型输出的预测值,计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值以及这三个指标的标准偏差(std)。经过计算,在Davis数据集中,本模型的结果为MSE(0.227)、CI(0.891)、(0.688)。在KIBA数据集中,本模型的结果为MSE(0.149)、CI(0.889)、(0.765)。与本领域已有发明中的部分DTA预测模型进行性能对比,如表1和表2所示。表1为Davis数据集上的结果比较;表2为KIBA数据集上的结果比较;
结果显示,本发明的DTA预测方法优于表里的其他方法,且通过较低的std值结果可以发现,本模型具有较高的稳定性。
表1
表2
Claims (3)
1.基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分,具体包含如下步骤,
步骤1,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;
在步骤1中,分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达,基于BPE算法获得的二级序列词汇表,通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列;
在步骤1中,利用BPE算法对序列进行分词处理,利用大量未标记序列构建蛋白质和药物二级序列词汇表,具体如下:
步骤1.1,从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载蛋白质FASTA序列和药物SMILES序列,其中包括无标签数据;
步骤1.2,初始化由单个氨基酸字符或SMILES字符组成的词汇表,使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘,形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表;
步骤1.3,对于蛋白质,取前vs个词汇构成最终的词汇表VT;对于药物,取前qs个词汇构成最终的词汇表VD;
步骤1.4,分别利用二级序列词汇表VT和VD对蛋白质FASTA序列和药物SMILES序列进行二级序列表达,获得蛋白质的二级序列ST和药物的二级序列SD;
在步骤1中,序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列,分别对完整序列和二级序列进行编码,获得编码输出;以蛋白质的编码过程为例,对序列编码模块的工作过程进行具体介绍:
(1)完整序列编码
蛋白质FASTA序列由不同的氨基酸组成,将由氨基酸构成的原始完整序列T表示为
T={t1,t2,…,ti,…,tn},ti∈Nt (1)
其中,ti表示蛋白质序列中第i个氨基酸,Nt表示氨基酸集合,包含了常见的25个氨基酸,n为输入蛋白质的长度,定义最大蛋白质的长度为l,对完整序列进行编码,包括嵌入和位置编码;
嵌入:以序列T为输入,对蛋白质完整序列进行嵌入,获得输出该过程为线性转换过程,嵌入层具有可训练权重其中v表示上述氨基酸集合的大小,e表示氨基酸嵌入的大小;
位置编码:为了添加蛋白质T中每个氨基酸的相对或绝对位置信息,还需要进行位置编码;以序列T为输入,对蛋白质完整序列进行位置编码,输出为表示了T中所有氨基酸的位置编码,定义为
其中,i是位置,j是维度,d是氨基酸位置编码的大小;PET(i,:)是矩阵PET的第i行,表示蛋白质T中第i个氨基酸的位置编码;当蛋白质的长度n<l时,n+1至l的部分为0;这里设置位置编码大小等于嵌入大小,即d=e;因此可以直接令PET和ET两者相加;
定义XWT为完整序列编码的输出,结果可表示为
XWT=ET+PET (4)
(2)二级序列编码
在二级序列编码模块中,以蛋白质的二级序列ST为输入,对二级序列进行嵌入和位置嵌入;
嵌入:对二级序列ST进行编码,获得矩阵其中Lt为最大蛋白质的二级序列的长度,vs为蛋白质二级序列词汇表VT的大小;以MST为输入,对二级序列进行嵌入操作,输出为其中es为每个二级序列嵌入的大小;嵌入层具有可训练权重其中vs表示上述蛋白质二级序列词汇表的大小;
位置嵌入:对蛋白质的二级序列进行单独的hot vector位置编码,结果表示为IST;以IST为输入,对二级序列进行位置嵌入,输出PEST可表示为
其中为位置嵌入层的位置查询词典;
定义XST为二级序列编码的输出,结果可表示为
XST=EST+PEST (6)
(3)池化
对完整序列的编码结果XWT进行池化操作,使其维度与二级序列编码结果XST的维度相同;定义XWT池化的结果为XWT1,将该结果与XST相加,获得蛋白质的序列编码模块的输出XT,表示为
(4)药物的序列编码
药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似;将药物SMILES序列D的数学表达式表示为
D={d1,d2,…,di,…,dm},di∈Nd (8)
di表示药物序列中第i个SMILES字符;Nd表示包含62个SMILES字符的SMILES集合;药物D的SMILES序列长度m是不固定的;定义最大药物的长度为z,因此m≤z;
药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小;此处设置氨基酸和SMILES字符具有相同的嵌入大小,即f=e;药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中Ld为最大药物的二级序列的长度,且Ld<z,fs为药物二级序列嵌入的大小;此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小,即fs=es;对药物完整序列编码结果XWD进行池化操作,结果为XWD1,其维度与二级序列encoding结果XSD的维度相同,即最终获得药物SMILES序列的序列编码模块输出XD,表示为
步骤2,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;
步骤3,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;
在步骤3中,构建了一个模态融合模块,由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合,将蛋白质特征XAT和药物特征XAD输入模态融合模块,利用交叉注意模块实现药物对蛋白质的关注,经由repeat、reshape和卷积操作后馈入十字交叉注模块,输出模态融合的结果;具体过程如下:
首先,将蛋白质特征XAT和药物特征XAD输入交叉注意模块,其中,查询query、键值key和值value的计算方法与上述特征提取模块中标准注意力机制的方法相同,query为蛋白质特征XAT,key和value为蛋白质特征XAD,从而实现药物到蛋白质的交叉关注;对输入XAT和XAD进行线性投影,分别得到矩阵Qca和Kca=Vca,其中dk1=dv1=es/h;给定Qca、Kca和Vca,应用带缩放点积注意力机制来获得交叉注意模块的输出XAT1;
分别对D2T融合特征XAT1和药物特征XAD进行repeat操作,获得特征矩阵XAT2和XAD2;将XAT2和XAD2按元素相乘并进行reshape处理和3x3卷积计算,获得特征矩阵X;
将矩阵X输入到十字交叉注意模块,对X进1×1卷积计算和线性转换,分别生成两个特征矩阵Qcc和Kcc;对QCC和KCC进行相关度计算:在Qcc空间维度的每个位置u,获得一个向量Qu,然后通过与位置u在同一行或列中的Kcc提取特征向量,构成集合Ωu;对相关度计算进行表示,如式(13)所示
其中,Ωi,u是Ωu的第i个元素,bi,u∈B是Ωu和Ωi,u之间的相关度,i=[1,...,(Ld+Lt-1)];在此基础上,对矩阵B进行softmax处理,计算得出注意力矩阵A;
再对X进行1×1的卷积计算和线性转换,获得特征自适应矩阵Vcc;在Vcc空间维度的每个位置u,可以获得一个向量Vu和一个集合Φu,其中集合Φu是矩阵Vcc中以u为中心的十字交叉结构的特征向量集合,在此基础上进行邻居节点间信息聚合计算,计算公式如下:
其中,X′是十字交叉注意模块的输出,即为模态融合模块的输出,X′u是X′在位置u处的特征向量,Ai,u是注意力矩阵A中位置u处的第i个标量值;通过上述十字交叉注意模块的处理,同一行和同一列中的邻居信息均被添加到特征X中,从而实现蛋白质与药物之间的特征交互融合;
步骤4,对模态融合结果进行解码,获得蛋白质和药物之间的结合亲和力的预测结果。
2.根据权利要求1所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:在步骤2中,特征提取模块主要由两个Transformer组成,其输入为已编码的蛋白质和药物XT和XD,经过Transformer特征提取后获得该模块的输出XAT和XAD,该模块的Transformer编码器主要包含了两个子层,分别是多头注意力层和前馈层;
(1)多头注意力层
特征提取模块的Transformer工作机理主要是基于自注意力机制进行特征提取;自注意力模块主要包括线性转换层,带缩放点积注意力层与合并层;对输入信号XT(XD)进行线性转换,获得矩阵QL=KL=VL,dk=dv,其中n为蛋白质或药物的最大长度n=Ltarget或n=Ldrug;将QL、KL以及VL输入到带缩放点积注意力层,对QL和KL进行点积计算并将结果除以然后使用softmax获取VL的权重,最终获得带缩放点积注意力层的输出,表示为
采用多头注意力机制来共同关注不同位置的不同表达子空间的信息,多头注意力层包含h个平行运行的带缩放点积注意力层;线性转换层的输入Q=K=V是Transformer编码模块的输入XT或XD;
将es维矩阵Q、K和V进行线性投影h次,分别获得h个QL矩阵、h个KL矩阵和h个VL矩阵;
利用带缩放点积注意力层处理QL、KL和VL,获得第i个带缩放点积注意力层的输出headi,i=1,2,...,h;
其中,为线性投影矩阵;
将带缩放点积注意力层的输出进行连接并传递至线性转换层,得到多头注意力层的输出,表示为
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (12)
其中,WO为线性投影矩阵;
(2)前馈层
前馈层由2个线性变换和ReLU激活组成,连接顺序为线性变换——ReLU激活——线性变换;多头注意力层的输出结果MultiHead(Q,K,V)在输入至前馈层获得输出;另外,在多头注意力层和前馈层两个子层的每一层周围都应用了一个残差连接和层规范化,以解决多层网络训练问题和加速收敛;
经过两次Transformer特征提取处理后,获得特征提取模块的输出,即蛋白质特征XAT和药物特征XAD。
3.根据权利要求2所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:在步骤4中,对模态融合的输出X'进行解码,以获得DTA预测结果,解码器模块由3个前馈层和1个线性层组成;
其中,第一个前馈层包含线性层和ReLU激活,接下来的两个前馈层包含线性层、ReLU激活和层规范化,将X'发送到解码模块,以获得DTA模型的输出Y,该输出Y即为蛋白质T和药物D之间的DTA预测得分,用于评价蛋白质与药物之间的相关性程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461200.6A CN116486900B (zh) | 2023-04-25 | 2023-04-25 | 基于深度模态数据融合的药物靶标亲和度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461200.6A CN116486900B (zh) | 2023-04-25 | 2023-04-25 | 基于深度模态数据融合的药物靶标亲和度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486900A CN116486900A (zh) | 2023-07-25 |
CN116486900B true CN116486900B (zh) | 2024-05-03 |
Family
ID=87219078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461200.6A Active CN116486900B (zh) | 2023-04-25 | 2023-04-25 | 基于深度模态数据融合的药物靶标亲和度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486900B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079716B (zh) * | 2023-09-13 | 2024-04-05 | 江苏运动健康研究院 | 一种基于基因检测的肿瘤用药方案的深度学习预测方法 |
CN117476106B (zh) * | 2023-12-26 | 2024-04-02 | 西安慧算智能科技有限公司 | 一种多类不平衡蛋白质二级结构预测方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
CN114242161A (zh) * | 2021-11-08 | 2022-03-25 | 中国石油大学(华东) | 一种基于深度特征融合编码器的药物-靶标相互作用预测系统 |
WO2022112248A1 (en) * | 2020-11-28 | 2022-06-02 | Deepmind Technologies Limited | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings |
CN114678081A (zh) * | 2022-05-07 | 2022-06-28 | 辽宁大学 | 一种融合网络拓扑信息的化合物-蛋白质相互作用预测方法 |
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN115620803A (zh) * | 2022-11-02 | 2023-01-17 | 南京理工大学 | 一种基于跨图注意力的蛋白质相互作用点位预测方法 |
CN115713965A (zh) * | 2022-10-28 | 2023-02-24 | 兰州大学 | 基于GECo模型预测化合物-蛋白质亲和力的计算方法 |
WO2023033281A1 (ko) * | 2021-08-31 | 2023-03-09 | 디어젠 주식회사 | 약물 및 타겟 물질 간의 친화도를 예측하는 방법 |
CN115862729A (zh) * | 2022-12-02 | 2023-03-28 | 联泰集群(北京)科技有限责任公司 | 构象预测方法 |
WO2023057455A1 (en) * | 2021-10-04 | 2023-04-13 | Deepmind Technologies Limited | Training a neural network to predict multi-chain protein structures |
KR20230051051A (ko) * | 2021-10-08 | 2023-04-17 | 주식회사 스탠다임 | 약학적 활성 성분의 특성 예측방법 |
CN116417093A (zh) * | 2022-12-06 | 2023-07-11 | 苏州科技大学 | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12100477B2 (en) * | 2019-12-02 | 2024-09-24 | Deepmind Technologies Limited | Protein structure prediction from amino acid sequences using self-attention neural networks |
US20220147838A1 (en) * | 2020-11-09 | 2022-05-12 | Adobe Inc. | Self-supervised visual-relationship probing |
-
2023
- 2023-04-25 CN CN202310461200.6A patent/CN116486900B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022112248A1 (en) * | 2020-11-28 | 2022-06-02 | Deepmind Technologies Limited | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
WO2023033281A1 (ko) * | 2021-08-31 | 2023-03-09 | 디어젠 주식회사 | 약물 및 타겟 물질 간의 친화도를 예측하는 방법 |
WO2023057455A1 (en) * | 2021-10-04 | 2023-04-13 | Deepmind Technologies Limited | Training a neural network to predict multi-chain protein structures |
KR20230051051A (ko) * | 2021-10-08 | 2023-04-17 | 주식회사 스탠다임 | 약학적 활성 성분의 특성 예측방법 |
CN114242161A (zh) * | 2021-11-08 | 2022-03-25 | 中国石油大学(华东) | 一种基于深度特征融合编码器的药物-靶标相互作用预测系统 |
CN114678081A (zh) * | 2022-05-07 | 2022-06-28 | 辽宁大学 | 一种融合网络拓扑信息的化合物-蛋白质相互作用预测方法 |
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN115713965A (zh) * | 2022-10-28 | 2023-02-24 | 兰州大学 | 基于GECo模型预测化合物-蛋白质亲和力的计算方法 |
CN115620803A (zh) * | 2022-11-02 | 2023-01-17 | 南京理工大学 | 一种基于跨图注意力的蛋白质相互作用点位预测方法 |
CN115862729A (zh) * | 2022-12-02 | 2023-03-28 | 联泰集群(北京)科技有限责任公司 | 构象预测方法 |
CN116417093A (zh) * | 2022-12-06 | 2023-07-11 | 苏州科技大学 | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 |
Non-Patent Citations (1)
Title |
---|
谢佩锦.药物靶标作用表示与预测方法研究.2022,全文及附图. * |
Also Published As
Publication number | Publication date |
---|---|
CN116486900A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116486900B (zh) | 基于深度模态数据融合的药物靶标亲和度预测方法 | |
CN113593631B (zh) | 一种预测蛋白质-多肽结合位点的方法及系统 | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN109062897A (zh) | 基于深度神经网络的句子对齐方法 | |
CN112331273B (zh) | 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法 | |
CN110990596B (zh) | 一种基于自适应量化多模态哈希检索方法及系统 | |
CN111428443A (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN108830042A (zh) | 一种基于多模态蛋白质序列的特征提取与编码方法及系统 | |
CN114970517A (zh) | 一种基于多模态交互的上下文感知的面向视觉问答的方法 | |
WO2023226351A1 (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN110956039A (zh) | 一种基于多维度向量化编码的文本相似度计算方法及装置 | |
Gao et al. | Curvature-adaptive meta-learning for fast adaptation to manifold data | |
CN115810351A (zh) | 一种基于视听融合的管制员语音识别方法及装置 | |
CN116312808A (zh) | 一种基于TransGAT的药物-靶标相互作用预测方法 | |
CN114926716A (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
CN113936333A (zh) | 一种基于人体骨架序列的动作识别算法 | |
CN117831609A (zh) | 一种蛋白质二级结构预测方法、装置及计算机装置 | |
CN117671666A (zh) | 一种基于自适应图卷积神经网络的目标识别方法 | |
CN113255569A (zh) | 一种基于图空洞卷积编码器解码器的3d姿态估计方法 | |
CN116758978A (zh) | 基于蛋白质结构的可控属性全新活性小分子设计方法 | |
CN116595222A (zh) | 基于多模态知识蒸馏的短视频多标签分类方法及装置 | |
CN116453584A (zh) | 蛋白质三维结构预测方法及系统 | |
Zhou et al. | XG-DTA: Drug-Target Affinity Prediction Based on Drug Molecular Graph and Protein Sequence combined with XLNet | |
CN116364220A (zh) | 一种基于疾病关系增强的自动icd编码方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zuo Haiwei Inventor after: Zhou Pengcheng Inventor after: Hu Jingye Inventor after: Yang Yang Inventor after: Yang Ziyan Inventor before: Zuo Haiwei Inventor before: Yang Yang Inventor before: Yang Ziyan Inventor before: Hu Jingye Inventor before: Zhou Pengcheng |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |