CN116486900B

CN116486900B - 基于深度模态数据融合的药物靶标亲和度预测方法

Info

Publication number: CN116486900B
Application number: CN202310461200.6A
Authority: CN
Inventors: 左海维; 周鹏程; 胡景叶; 杨洋; 杨子琰
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-05-03
Anticipated expiration: 2043-04-25
Also published as: CN116486900A

Abstract

本发明公开了基于深度模态数据融合的药物靶标亲和度预测方法，涉及大数据技术领域，利用大量的无标签序列信息构造蛋白质与药物序列的二级序列，并对蛋白质与药物的完整序列和二级序列进行编码；然后，利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征，实现序列全局特征与局部特征的同步捕获；接着，通过交叉注意机制和十字交叉注意机制进行模态融合，实现蛋白质序列与药物序列两种模态特征之间的双向交互，进而更准确的挖掘交互后的模态特征，提升药物靶标亲和度预测的精度；最后，对模态融合结果进行解码，获得DTA预测结果。

Description

基于深度模态数据融合的药物靶标亲和度预测方法

技术领域

本发明涉及大数据技术领域，尤其涉及基于深度模态数据融合的药物靶标亲和度预测方法。

背景技术

药物靶标亲和性(Drug-target affinity，DTA)预测在药物发现中发挥着重要作用，因为它能够从大量候选化合物中筛选潜在药物，并描述药物靶标对中相互作用的强度。然而，通过大规模化学或生物实验进行DTA预测的工作大多需要消耗大量的时间、资源和成本。随着药物、靶点和相互作用数据的不断积累，通过计算机辅助药物设计技术，相关领域已经开发了诸多方法来预测DTA。由于深度学习的突破和计算能力的巨大提升，基于深度学习的DTA预测模型已逐渐应用于预测药物与靶标的结合亲和力。虽然部分模型已经取得了良好的预测性能，但是仍存在一些问题。例如，现有的计算模型在预测精度、鲁棒性和泛化能力方面仍有很大的改进空间；大多数用于DTA预测的深度学习模型缺乏可解释性分析，这在一定程度上降低了它们在实际应用中的可信度。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供一种基于深度模态数据融合的药物靶标亲和度预测方法。

本发明为解决上述技术问题采用以下技术方案：

基于深度模态数据融合的药物靶标亲和度预测方法，包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分，具体包含如下步骤，

步骤1，利用大量的无标签序列信息构造蛋白质与药物序列的二级序列，并对蛋白质与药物的完整序列和二级序列进行编码；

步骤2，利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征，实现序列全局特征与局部特征的同步捕获；

步骤3，通过交叉注意机制和十字交叉注意机制进行模态融合，实现蛋白质序列与药物序列两种模态特征之间的双向交互，进而挖掘交互后的模态特征，提升药物靶标亲和度预测的精度；

步骤4，对模态融合结果进行解码，获得蛋白质和药物之间的结合亲和力的预测结果。

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤1中，分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达，基于BPE算法获得的二级序列词汇表，通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列。

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤1中，利用BPE算法对序列进行分词处理，利用大量未标记序列构建蛋白质和药物二级序列词汇表，具体如下：

步骤1.1，从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载蛋白质FASTA序列和药物SMILES序列，其中包括无标签数据；

步骤1.2，初始化由单个氨基酸字符或SMILES字符组成的词汇表，使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘，形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表；

步骤1.3，对于蛋白质，取前v_s个词汇构成最终的词汇表V_T；对于药物，取前q_s个词汇构成最终的词汇表V_D；

步骤1.4，分别利用二级序列词汇表V_T和V_D对蛋白质FASTA序列和药物SMILES序列进行二级序列表达，获得蛋白质的二级序列ST和药物的二级序列SD。

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤1中，序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列，分别对完整序列和二级序列进行编码，获得编码输出；以蛋白质的编码过程为例，对序列编码模块的工作过程进行具体介绍：

(1)完整序列编码

蛋白质FASTA序列由不同的氨基酸组成，将由氨基酸构成的原始完整序列T表示为

T＝{t₁,t₂,…,t_i,…,t_n},t_i∈N^t (1)

t_i表示蛋白质序列中第i个氨基酸，N^t表示氨基酸集合，包含了常见的25个氨基酸，n为输入蛋白质的长度，定义最大蛋白质的长度为l，对完整序列进行编码，包括嵌入和位置编码；

嵌入：以序列T为输入，对蛋白质完整序列进行嵌入，获得输出该过程为线性转换过程，嵌入层具有可训练权重其中v表示上述氨基酸集合的大小，e表示氨基酸嵌入的大小；

位置编码：为了添加蛋白质T中每个氨基酸的相对或绝对位置信息，还需要进行位置编码；以序列T为输入，对蛋白质完整序列进行位置编码，输出为表示了T中所有氨基酸的位置编码，定义为

其中，i是位置，j是维度，d是氨基酸位置编码的大小；PE^T(i,:)是矩阵PE^T的第i行，表示蛋白质T中第i个氨基酸的位置编码；当蛋白质的长度n<l时，n+1至l的部分为0；这里设置位置编码大小等于嵌入大小，即d＝e；因此可以直接令PE^T和E^T两者相加；

定义X^WT为完整序列编码的输出，结果可表示为

X^WT＝E^T+PE^T (4)

(2)二级序列编码

在二级序列编码模块中，以蛋白质的二级序列ST为输入，对二级序列进行嵌入和位置嵌入；

嵌入：对二级序列ST进行编码，获得矩阵其中L_t为最大蛋白质的二级序列的长度，v_s为蛋白质二级序列词汇表V_T的大小；以M^ST为输入，对二级序列进行嵌入操作，输出为其中e_s为每个二级序列嵌入的大小；嵌入层具有可训练权重其中v_s表示上述蛋白质二级序列词汇表的大小；

位置嵌入：对蛋白质的二级序列进行单独的hot vector位置编码，结果表示为I^ST；以I^ST为输入，对二级序列进行位置嵌入，输出PE^ST可表示为

其中为位置嵌入层的位置查询词典；

定义X^ST为二级序列编码的输出，结果可表示为

X^ST＝E^ST+PE^ST (6)

(3)池化

对完整序列的编码结果X^WT进行池化操作，使其维度与二级序列编码结果X^ST的维度相同；定义X^WT池化的结果为X^WT1，将该结果与X^ST相加，获得蛋白质的序列编码模块的输出X^T，表示为

(4)药物的序列编码

药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似；将药物SMILES序列D的数学表达式表示为

D＝{d₁,d₂,…,d_i,…,d_m},d_i∈N^d (8)

d_i表示药物序列中第i个SMILES字符；N^d表示包含62个SMILES字符的SMILES集合；药物D的SMILES序列长度m是不固定的。定义最大药物的长度为z，因此m≤z；

药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小；此处设置氨基酸和SMILES字符具有相同的嵌入大小，即f＝e；药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中L_d为最大药物的二级序列的长度，且L_d<z，f_s为药物二级序列嵌入的大小；此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小，即f_s＝e_s；对药物完整序列编码结果X^WD进行池化操作，结果为X^WD1，其维度与二级序列encoding结果X^SD的维度相同，即最终获得药物SMILES序列的序列编码模块输出X^D，表示为

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤2中，特征提取模块主要由两个Transformer组成，其输入为已编码的蛋白质和药物X^T和X^D，经过Transformer特征提取后获得该模块的输出X^AT和X^AD，该模块的Transformer编码器主要包含了两个子层，分别是多头注意力层和前馈层；

(1)多头注意力层

特征提取模块的Transformer工作机理主要是基于自注意力机制进行特征提取；自注意力模块主要包括线性转换层，带缩放点积注意力层与合并层；对输入信号X^T(X^D)进行线性转换，获得矩阵Q_L＝K_L＝V_L，d_k＝d_v，其中n为蛋白质或药物的最大长度n＝L_target或n＝L_drug；将Q_L、K_L以及V_L输入到带缩放点积注意力层，对Q_L和K_L进行点积计算并将结果除以然后使用softmax获取V_L的权重，最终获得带缩放点积注意力层的输出，表示为

采用多头注意力机制来共同关注不同位置的不同表达子空间的信息，多头注意力层包含h个平行运行的带缩放点积注意力层；线性转换层的输入Q＝K＝V是Transformer编码模块的输入X^T或X^D；

将e_s维矩阵Q、K和V进行线性投影h次，分别获得h个Q_L矩阵、h个K_L矩阵和h个V_L矩阵；

利用带缩放点积注意力层处理Q_L、K_L和V_L，获得第i个带缩放点积注意力层的输出head_i，i＝1,2,...,h。

其中，为线性投影矩阵；

将带缩放点积注意力层的输出进行连接并传递至线性转换层，得到多头注意力层的输出，表示为

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (12)

其中，W^O为线性投影矩阵；

(2)前馈层

前馈层由2个线性变换和ReLU激活组成，连接顺序为线性变换——ReLU激活——线性变换；多头注意力层的输出结果MultiHead(Q,K,V)在输入至前馈层获得输出；另外，在多头注意力层和前馈层两个子层的每一层周围都应用了一个残差连接和层规范化，以解决多层网络训练问题和加速收敛；

经过两次Transformer特征提取处理后，获得特征提取模块的输出，即蛋白质特征X^AT和药物特征X^AD。

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤3中，构建了一个模态融合模块，由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合，将蛋白质特征X^AT和药物特征X^AD输入模态融合模块，利用交叉注意模块实现药物对蛋白质的关注，经由repeat、reshape和卷积操作后馈入十字交叉注模块，输出模态融合的结果；具体过程如下：

首先，将蛋白质特征X^AT和药物特征X^AD输入交叉注意模块，其中，查询query、键值key和值value的计算方法与上述特征提取模块中标准注意力机制的方法相同，query为蛋白质特征X^AT，key和value为蛋白质特征X^AD，从而实现药物到蛋白质的交叉关注；对输入X^AT和X^AD进行线性投影，分别得到矩阵Q_ca和K_ca＝V_ca，其中 d_k1＝d_v1＝ed/h；给定Q_ca、K_ca和V_ca，应用带缩放点积注意力机制来获得交叉注意模块的输出X^AT1；

分别对D2T融合特征X^AT1和药物特征X^AD进行repeat操作，获得特征矩阵X^AT2和X^AD2；将X^AT2和X^AD2按元素相乘并进行reshape处理和3x3卷积计算，获得特征矩阵X；

将矩阵X输入到十字交叉注意模块，对X进1×1卷积计算和线性转换，分别生成两个特征矩阵Q_cc和K_cc；对Q_CC和K_CC进行相关度计算：在Q_cc空间维度的每个位置u，获得一个向量Q_u，然后通过与位置u在同一行或列中的K_cc提取特征向量，构成集合Ω_u；对相关度计算进行表示，如式(13)所示

其中，Ω_i,u是Ω_u的第i个元素，b_i,u∈B是Ω_u和Ω_i,u之间的相关度，i＝[1,…,(L_d+L_t-1)]；在此基础上，对矩阵B进行softmax处理，计算得出注意力矩阵A；

再对X进行1×1的卷积计算和线性转换，获得特征自适应矩阵V_cc；在V_cc空间维度的每个位置u，可以获得一个向量V_u和一个集合Φ_u，其中集合Φ_u是矩阵V_cc中以u为中心的十字交叉结构的特征向量集合，在此基础上进行邻居节点间信息聚合计算，计算公式如下：

其中，X'是十字交叉注意模块的输出，即为模态融合模块的输出，X′_u是X'在位置u处的特征向量，A_i,u是注意力矩阵A中位置u处的第i个标量值；通过上述十字交叉注意模块的处理，同一行和同一列中的邻居信息均被添加到特征X中，从而实现蛋白质与药物之间的特征交互融合。

作为本发明基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案，在步骤4中，对模态融合的输出X'进行解码，以获得DTA预测结果，解码器模块由3个前馈层和1个线性层组成；

其中，第一个前馈层包含线性层和ReLU激活，接下来的两个前馈层包含线性层、ReLU激活和层规范化，将X'发送到解码模块，以获得DTA模型的输出Y，该输出Y即为蛋白质T和药物D之间的DTA预测得分，用于评价蛋白质与药物之间的相关性程度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明基于深度模态数据融合的药物靶标亲和度预测方法，利用大量的无标签序列信息构造蛋白质与药物序列的二级序列，并对蛋白质与药物的完整序列和二级序列进行编码；利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征，实现序列全局特征与局部特征的同步捕获；通过交叉注意机制和十字交叉注意机制进行模态融合，实现蛋白质序列与药物序列两种模态特征之间的双向交互，进而更准确的挖掘交互后的模态特征，提升药物靶标亲和度预测的精度；对模态融合结果进行解码，获得DTA预测结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明模型框架图；

图2是本发明自注意力机制框架图；

图3是本发明交叉注意模块框架图；

图4是本发明十字交叉注意模块框架图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于深度模态数据融合的药物靶标亲和度预测方法提出的模型由四个部分组成，分别是序列编码模块、特征提取模块、模态融合模块、解码模块，如图1所示。该模型以蛋白质的FASTA序列和药物的SMILES序列为输入，首先在序列编码模块对完整序列和二级序列进行编码。然后基于Transformer蛋白质和药物编码结果进行特征提取。接着，依次使用交叉注意机制和十字交叉注意机制对蛋白质特征和药物特征之间的相互关系进行进一步挖掘与学习。最后，对学习结果进行解码，获得蛋白质和药物之间的结合亲和力的预测结果。输入信号的表示：

使用化合物的SMILES线性字符串描述符来表示药物，蛋白质的氨基酸序列(FASTA)来表示蛋白质。因在序列编码模块部分设计了二级序列编码，因此，需要分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达。本发明基于BPE算法获得的二级序列词汇表，然后通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列。

BPE算法是一种可用于自然语言处理的数据压缩技术，它用一个未使用的字节反复替换序列中最频繁的字节对。在本方法中，利用BPE算法对序列进行分词处理，利用大量未标记序列构建蛋白质/药物二级序列词汇表。该词汇表包含了在完整序列中出现频率较高的连续二级序列，能够从生物学角度出发能够很好的体现原子间的关联性。因此，利用二级序列词汇表对完整序列进行二级序列编码和特征提取，将非常有利于在DTA模型中捕获有意义的生物医学语义。

首先，从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质FASTA序列和药物SMILES序列，其中包括大量无标签数据。然后，初始化由单个氨基酸字符或SMILES字符组成的词汇表，使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘，形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表。对于蛋白质，取前v_s个词汇构成最终的词汇表V_T；对于药物，取前q_s个词汇构成最终的词汇表V_D。在此基础上，分别利用二级序列词汇表V_T和V_D对蛋白质FASTA序列和药物SMILES序列进行二级序列表达，获得蛋白质的二级序列ST和药物的二级序列SD。

序列编码模块：

序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列。分别对完整序列和二级序列进行编码，获得编码输出。蛋白质与药物的编码过程相似，下面以蛋白质的编码过程为例，对序列编码模块的工作过程进行具体介绍：

(1)完整序列编码

蛋白质FASTA序列由不同的氨基酸组成。将由氨基酸构成的原始完整序列T表示为

T＝{t₁,t₂,…,t_i,…,t_n},t_i∈N^t (1)

t_i表示蛋白质序列中第i个氨基酸，N^t表示氨基酸集合，包含了常见的25个氨基酸。n为输入蛋白质的长度。定义最大蛋白质的长度为l。下面对完整序列进行编码，包括嵌入和位置编码。

嵌入：以序列T为输入，对蛋白质完整序列进行嵌入，获得输出该过程为线性转换过程，嵌入层具有可训练权重其中v表示上述氨基酸集合的大小，e表示氨基酸嵌入的大小。

位置编码：为了添加蛋白质T中每个氨基酸的相对或绝对位置信息，还需要进行位置编码。以序列T为输入，对蛋白质完整序列进行位置编码，输出为表示了T中所有氨基酸的位置编码，定义为

其中，i是位置，j是维度，d是氨基酸位置编码的大小。PE^T(i,:)是矩阵PE^T的第i行，表示蛋白质T中第i个氨基酸的位置编码。当蛋白质的长度n<l时，n+1至l的部分为0。这里设置位置编码大小等于嵌入大小，即d＝e。因此可以直接令PE^T和E^T两者相加。

定义X^WT为完整序列编码的输出，结果可表示为

X^WT＝E^T+PE^T (4)

(2)二级序列编码

在二级序列编码模块中，以蛋白质的二级序列ST为输入，对二级序列进行嵌入和位置嵌入。

嵌入：对二级序列ST进行编码，获得矩阵其中L_t为最大蛋白质的二级序列的长度，v_s为蛋白质二级序列词汇表V_T的大小。以M^ST为输入，对二级序列进行嵌入操作，输出为其中e_s为每个二级序列嵌入的大小。嵌入层具有可训练权重其中v_s表示上述蛋白质二级序列词汇表的大小。

位置嵌入：对蛋白质的二级序列进行单独的hot vector位置编码，结果表示为I^ST。以I^ST为输入，对二级序列进行位置嵌入，输出PE^ST可表示为

其中为位置嵌入层的位置查询词典。

定义X^ST为二级序列编码的输出，结果可表示为

X^ST＝E^ST+PE^ST (6)

(3)池化

对完整序列的编码结果X^WT进行池化操作，使其维度与二级序列编码结果X^ST的维度相同。定义X^WT池化的结果为X^WT1，将该结果与X^ST相加，获得蛋白质的序列编码模块的输出X^T，表示为

(4)药物的序列编码

药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似。将药物SMILES序列D的数学表达式表示为

D＝{d₁,d₂,…,d_i,…,d_m},d_i∈N^d (8)

d_i表示药物序列中第i个SMILES字符。N^d表示包含62个SMILES字符的SMILES集合。药物D的SMILES序列长度m是不固定的。定义最大药物的长度为z，因此m≤z。

药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小。此处设置氨基酸和SMILES字符具有相同的嵌入大小，即f＝e。药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中L_d为最大药物的二级序列的长度，且L_d<z，f_s为药物二级序列嵌入的大小。此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小，即f_s＝e_s。对药物完整序列编码结果X^WD进行池化操作，结果为X^WD1，其维度与二级序列encoding结果X^SD的维度相同，即最终获得药物SMILES序列的序列编码模块输出X^D，表示为

特征提取模块：

特征提取模块主要由两个Transformer组成，如图2所示，其输入为已编码的蛋白质和药物X^T和X^D，经过Transformer特征提取后获得该模块的输出X^AT和X^AD。该模块的Transformer编码器主要包含了两个子层，分别是多头注意力层和前馈层。

自注意力机制框架图如图2所示；

(1)多头注意力层

特征提取模块的Transformer工作机理主要是基于自注意力机制进行特征提取。自注意力模块主要包括线性转换层，带缩放点积注意力层与合并层。对输入信号X^T(X^D)进行线性转换，获得矩阵Q_L＝K_L＝V_L，d_k＝d_v，其中n为蛋白质或药物的最大长度(n＝L_target或n＝L_drug)。将(query)Q_L、(key)K_L以及(value)V_L输入到带缩放点积注意力层，对Q_L和K_L进行点积计算并将结果除以然后使用softmax获取V_L的权重，最终获得带缩放点积注意力层的输出，表示为

本模型采用多头注意力机制来共同关注不同位置的不同表达子空间的信息。本模型中的多头注意力层包含h个平行运行的带缩放点积注意力层。这里，线性转换层的输入Q＝K＝V是Transformer编码模块的输入X^T或X^D。首先，将e_s维矩阵Q、K和V进行线性投影h次，分别获得h个Q_L矩阵、h个K_L矩阵和h个V_L矩阵。然后，利用带缩放点积注意力层处理Q_L、K_L和V_L，获得第i个带缩放点积注意力层的输出head_i，i＝1,2,...,h。

其中，为线性投影矩阵。最后，将带缩放点积注意力层的输出进行连接并传递至线性转换层，得到多头注意力层的输出，表示为

MultiHead(Q,K,V)＝Con_cat(head₁,...,head_h)W^O (12)

其中，W^O为线性投影矩阵。

(2)前馈层

前馈层由2个线性变换和ReLU激活组成，连接顺序为线性变换——ReLU激活——线性变换。多头注意力层的输出结果MultiHead(Q,K,V)在输入至前馈层获得输出。另外，在多头注意力层和前馈层两个子层的每一层周围都应用了一个残差连接和层规范化，以解决多层网络训练问题和加速收敛。

模态融合模块：

为了挖掘两种模态特征的相关性，实现蛋白质序列和药物序列之间的双向交互，本发明构建了一个模态融合模块。该模块主要由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合，将蛋白质特征X^AT和药物特征X^AD输入模态融合模块，首先利用交叉注意模块实现药物对蛋白质的关注，然后经由repeat、reshape和卷积操作后馈入十字交叉注模块，最终输出模态融合的结果。具体过程如下：

首先，将蛋白质特征X^AT和药物特征X^AD输入交叉注意模块，如图3所示。该模块查询(query)、键值(key)和值(value)的计算方法与上述特征提取模块中标准注意力机制的方法相同，但是数据来源不同。该模块中，query为蛋白质特征X^AT，key和value为蛋白质特征X^AD，从而实现药物到蛋白质的交叉关注。对输入X^AT和X^AD进行线性投影，分别得到矩阵Q_ca和K_ca＝V_ca，其中d_k1＝d_v1＝e_s/h。然后，给定Q_ca、K_ca和V_ca，应用带缩放点积注意力机制来获得交叉注意模块的输出X^AT1。

交叉注意模块框架图如图3所示；

然后，分别对D2T融合特征X^AT1和药物特征X^AD进行repeat操作，获得特征矩阵X^AT2和X^AD2。将X^AT2和X^AD2按元素相乘并进行reshape处理和3x3卷积计算，获得特征矩阵X。

最后，将矩阵X输入到十字交叉注意模块，如图4所示。对X进1×1卷积计算和线性转换，分别生成两个特征矩阵Q_cc和K_cc。对Q_CC和J_CC进行相关度计算：在Q_cc空间维度的每个位置u，可以获得一个向量Q_u，然后通过与位置u在同一行或列中的K_cc提取特征向量，构成集合Ω_u。对相关度计算进行表示，如式(13)所示

其中，Ω_i,u是Ω_u的第i个元素，b_i,u∈B是Ω_u和Ω_i,u之间的相关度，i＝[1,…,(L_d+L_t-1)]；在此基础上，对矩阵B进行softmax处理，计算得出注意力矩阵A。

十字交叉注意模块框架图如图4所示；

再对X进行1×1的卷积计算和线性转换，获得特征自适应矩阵V_cc。在V_cc空间维度的每个位置u，可以获得一个向量V_u和一个集合Φ_u，其中集合Φ_u是矩阵V_cc中以u为中心的十字交叉结构的特征向量集合。在此基础上进行邻居节点间信息聚合计算，计算公式如下：

其中，X'是十字交叉注意模块的输出，即为模态融合模块的输出，X'_u是X'在位置u处的特征向量，A_i,u是注意力矩阵A中位置u处的第i个标量值。通过上述十字交叉注意模块的处理，同一行和同一列中的邻居信息均被添加到特征X中，从而实现蛋白质与药物之间的特征交互融合。

解码模块：

在该模型的最后，对模态融合的输出X'进行解码，以获得DTA预测结果。解码器模块由3个前馈层和1个线性层组成。第一个前馈层包含线性层和ReLU激活，接下来的两个前馈层包含线性层、ReLU激活和层规范化。将X'发送到解码模块，以获得DTA模型的输出Y，该输出Y即为蛋白质T和药物D之间的DTA预测得分，用于评价蛋白质与药物之间的相关性程度。

仿真验证：

本发明使用两个常见的基准数据集KIBA和Davis来评估本模型；其中，Davis数据集包含442个激酶蛋白和68个抑制剂(药物)，形成了30056个药物-靶标对，通过解离常数(K_d)值测量。KIBA数据集包含229种蛋白质和2111种药物，形成了118254个药物-靶标对。按照5/1将数据划分为训练集与测试集数据，数据随机划分5次。根据测试集的亲和度真实值与模型输出的预测值，计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值以及这三个指标的标准偏差(std)。经过计算，在Davis数据集中，本模型的结果为MSE(0.227)、CI(0.891)、(0.688)。在KIBA数据集中，本模型的结果为MSE(0.149)、CI(0.889)、(0.765)。与本领域已有发明中的部分DTA预测模型进行性能对比，如表1和表2所示。表1为Davis数据集上的结果比较；表2为KIBA数据集上的结果比较；

结果显示，本发明的DTA预测方法优于表里的其他方法，且通过较低的std值结果可以发现，本模型具有较高的稳定性。

表1

表2

Claims

1.基于深度模态数据融合的药物靶标亲和度预测方法，其特征在于：包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分，具体包含如下步骤，

在步骤1中，分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达，基于BPE算法获得的二级序列词汇表，通过对完整序列进行one-hot编码的方式来构建蛋白质和药物的二级序列；

在步骤1中，利用BPE算法对序列进行分词处理，利用大量未标记序列构建蛋白质和药物二级序列词汇表，具体如下：

步骤1.4，分别利用二级序列词汇表V_T和V_D对蛋白质FASTA序列和药物SMILES序列进行二级序列表达，获得蛋白质的二级序列ST和药物的二级序列SD；

在步骤1中，序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列，分别对完整序列和二级序列进行编码，获得编码输出；以蛋白质的编码过程为例，对序列编码模块的工作过程进行具体介绍：

(1)完整序列编码

T＝{t₁,t₂,…,t_i,…,t_n},t_i∈N^t (1)

其中，t_i表示蛋白质序列中第i个氨基酸，N^t表示氨基酸集合，包含了常见的25个氨基酸，n为输入蛋白质的长度，定义最大蛋白质的长度为l，对完整序列进行编码，包括嵌入和位置编码；

其中，i是位置，j是维度，d是氨基酸位置编码的大小；PE^T(i,:)是矩阵PE^T的第i行，表示蛋白质T中第i个氨基酸的位置编码；当蛋白质的长度n＜l时，n+1至l的部分为0；这里设置位置编码大小等于嵌入大小，即d＝e；因此可以直接令PE^T和E^T两者相加；

定义X^WT为完整序列编码的输出，结果可表示为

X^WT＝E^T+PE^T (4)

(2)二级序列编码

其中为位置嵌入层的位置查询词典；

定义X^ST为二级序列编码的输出，结果可表示为

X^ST＝E^ST+PE^ST (6)

(3)池化

(4)药物的序列编码

D＝{d₁,d₂,…,d_i,…,d_m},d_i∈N^d (8)

d_i表示药物序列中第i个SMILES字符；N^d表示包含62个SMILES字符的SMILES集合；药物D的SMILES序列长度m是不固定的；定义最大药物的长度为z，因此m≤z；

药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表示SMILES字符嵌入的大小；此处设置氨基酸和SMILES字符具有相同的嵌入大小，即f＝e；药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中L_d为最大药物的二级序列的长度，且L_d＜z，f_s为药物二级序列嵌入的大小；此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小，即f_s＝e_s；对药物完整序列编码结果X^WD进行池化操作，结果为X^WD1，其维度与二级序列encoding结果X^SD的维度相同，即最终获得药物SMILES序列的序列编码模块输出X^D，表示为

在步骤3中，构建了一个模态融合模块，由交叉注意机制和十字交叉注意机制实现蛋白质特征与药物特征之间的交叉融合，将蛋白质特征X^AT和药物特征X^AD输入模态融合模块，利用交叉注意模块实现药物对蛋白质的关注，经由repeat、reshape和卷积操作后馈入十字交叉注模块，输出模态融合的结果；具体过程如下：

首先，将蛋白质特征X^AT和药物特征X^AD输入交叉注意模块，其中，查询query、键值key和值value的计算方法与上述特征提取模块中标准注意力机制的方法相同，query为蛋白质特征X^AT，key和value为蛋白质特征X^AD，从而实现药物到蛋白质的交叉关注；对输入X^AT和X^AD进行线性投影，分别得到矩阵Q_ca和K_ca＝V_ca，其中d_k1＝d_v1＝e_s/h；给定Q_ca、K_ca和V_ca，应用带缩放点积注意力机制来获得交叉注意模块的输出X^AT1；

其中，Ω_i，u是Ω_u的第i个元素，b_i，u∈B是Ω_u和Ω_i，u之间的相关度，i＝[1，...，(L_d+L_t-1)]；在此基础上，对矩阵B进行softmax处理，计算得出注意力矩阵A；

其中，X′是十字交叉注意模块的输出，即为模态融合模块的输出，X′_u是X′在位置u处的特征向量，A_i，u是注意力矩阵A中位置u处的第i个标量值；通过上述十字交叉注意模块的处理，同一行和同一列中的邻居信息均被添加到特征X中，从而实现蛋白质与药物之间的特征交互融合；

2.根据权利要求1所述的基于深度模态数据融合的药物靶标亲和度预测方法，其特征在于：在步骤2中，特征提取模块主要由两个Transformer组成，其输入为已编码的蛋白质和药物X^T和X^D，经过Transformer特征提取后获得该模块的输出X^AT和X^AD，该模块的Transformer编码器主要包含了两个子层，分别是多头注意力层和前馈层；

(1)多头注意力层

利用带缩放点积注意力层处理Q_L、K_L和V_L，获得第i个带缩放点积注意力层的输出head_i，i＝1,2,...,h；

其中，为线性投影矩阵；

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (12)

其中，W^O为线性投影矩阵；

(2)前馈层

3.根据权利要求2所述的基于深度模态数据融合的药物靶标亲和度预测方法，其特征在于：在步骤4中，对模态融合的输出X'进行解码，以获得DTA预测结果，解码器模块由3个前馈层和1个线性层组成；