CN115458061B

CN115458061B - 一种药物-蛋白质相互作用预测方法及系统

Info

Publication number: CN115458061B
Application number: CN202211258086.9A
Authority: CN
Inventors: 卫金茂; 孙畅; 李燕飞; 刘健
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2024-01-23
Anticipated expiration: 2042-10-13
Also published as: CN115458061A

Abstract

本申请公开了一种药物‑蛋白质相互作用预测方法及系统，其中，方法包括：收集药物‑蛋白质相互作用预测的数据集；对数据集进行预处理，得到处理后数据；基于处理后数据，进行蛋白质序列编码，提取蛋白质特征；基于蛋白特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；基于处理后数据，将药物和蛋白质的临床信息编码在一起，得到第二编码结果；根据第一编码结果和第二编码结果，计算药物‑蛋白质对的相互作用概率。本申请同时考虑了药物和蛋白质的化学属性、分子机制和临床功能；将药物和蛋白质的原始特征投影到了共同的嵌入子空间中；通过分析药物和蛋白质的特征的一致性，探究药物与蛋白质的作用机制。

Description

一种药物-蛋白质相互作用预测方法及系统

技术领域

本申请涉及计算生物学技术领域，具体涉及一种药物-蛋白质相互作用预测方法及系统。

背景技术

探索潜在的药物-蛋白质相互作用是药物发现和药物重定位的关键步骤。然而，通过生物实验的方法为具有复杂化学性质的药物分子寻找其相关靶蛋白质是一项耗资巨大、周期漫长、风险度极高且成功率很低的工程。因此，基于药物大数据与蛋白质大数据，计算预测药物与蛋白质间的相互作用，为生物学家后续的药物-蛋白质相互作用(DPI)鉴定试验提供可靠的药物-蛋白质候选，可以有效的加速药物重定位与药物研发的进程。近年来，利用计算学的方法来计算预测药物-蛋白质间的相互作用关系逐渐的成为了研究焦点。

早期计算预测药物-蛋白质相互作用主要是通过对接模拟与基于配体的两类方法。对接模拟的方法需要模拟蛋白质的3D结构，这种方法非常耗时，并且不是所有靶蛋白的结构信息都是已知的。基于配体的方法将要查询配体的靶蛋白与一组已知配体的靶蛋白进行比较，然而，在已知配体数量很少的情况下，这类方法的表现并不好。针对这些问题，学者们开始从网络的角度来计算预测药物-蛋白质相互作用。基于相似的药物更可能和同一个蛋白质发生相互作用，反之亦然的假设，通过整合药物-蛋白质异构网络中的多种信息来分析每一对药物与蛋白质发生相互作用的可能性。然而，在这些算法中，药物与蛋白质的编码过程都是独立的，药物的特征向量与蛋白质的特征向量并不具有特征的对应性。这使得预测模型无法分析到药物与蛋白质潜在的一致性。忽略药物和蛋白质间的这种一致性关系，可能会对药物-蛋白质相互作用的预测产生严重的负面影响。

发明内容

本申请利用共编码策略，通过保持分子嵌入特征的语义一致性来提高预测结果的准确性。

为实现上述目的，本申请提供了一种药物-蛋白质相互作用预测方法，步骤包括：

收集药物-蛋白质相互作用预测的数据集；

对所述数据集进行预处理，得到处理后数据；

基于所述处理后数据，进行蛋白质序列编码，提取蛋白质特征；

基于所述蛋白特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；

基于所述处理后数据，将所述药物和蛋白质的临床信息编码在一起，得到第二编码结果；

根据所述第一编码结果和所述第二编码结果，计算药物-蛋白质对的相互作用概率。

优选的，得到所述处理后数据的方法包括：利用符号化方法整合所述数据集，得到所述处理后数据。

优选的，所述处理后数据包括：药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。

优选的，提取所述蛋白质特征的方法包括：基于双向长短期记忆神经网络构建蛋白质序列编码模型，从长度灵活的所述氨基酸序列中提取所述蛋白质特征。

优选的，得到所述第一编码结果的方法包括：基于全连接神经网络构建分子机制共编码模型，同时对所述药物和蛋白质的分子机制进行编码，从而将所述药物和蛋白质的原始特征投影到一个共同的嵌入空间中。

优选的，得到所述第二编码结果的方法包括：基于全连接神经网络构建临床功能共编码模型，将所述药物和蛋白质的临床信息编码在一起，得到所述第二编码结果。

优选的，计算所述药物-蛋白质对的相互作用概率的方法包括：构建基于卷积神经网络的DPI预测模型，通过所述第一编码结果和所述第二编码结果来计算药物-蛋白质对的相互作用概率。

本申请还提供了一种药物-蛋白质相互作用预测系统，包括：采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块；

所述采集模块用于收集药物-蛋白质相互作用预测的数据集；

所述预处理模块对所述数据集进行预处理，得到处理后数据；

所述蛋白质序列编码模块用于基于所述处理后数据，进行蛋白质序列编码，提取蛋白质特征；

所述分子机制共编码模块用于基于所述蛋白特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；

所述临床功能共编码模块用于基于所述处理后数据，将所述药物和蛋白质的临床信息编码在一起，得到第二编码结果；

所述DPI预测模块用于根据所述第一编码结果和所述第二编码结果，计算药物-蛋白质对的相互作用概率。

与现有技术相比，本申请的有益效果如下：

本申请同时考虑了药物和蛋白质的化学属性、分子机制和临床功能；将药物和蛋白质的原始特征投影到了共同的嵌入子空间中，使药物和蛋白质的嵌入向量所表示的特征具有相同的含义；通过分析药物和蛋白质的特征的一致性，探究药物与蛋白质的作用机制。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的蛋白质序列编码模型示意图；

图2为本申请实施例一的分子机制共编码模型示意图；

图3为本申请实施例一的临床功能共编码模型示意图；

图4为本申请实施例一的DPI预测模型示意图；

图5本本申请与其他DPI预测模型在两个数据集上的效果对比示意图；

图6为本申请实施例一的共同编码策略和独立编码策略的效果对比示意图；

图7为本申请实施例二的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

本申请公开了一种新的药物-蛋白质相互作用预测方法——DNNCC，该方法侧重于探究药物与蛋白质间特征的一致性关系。在本实施例中，首先从几个相关的公共数据库中提取了药物-蛋白质相互作用预测的数据集，之后利用符号化方法整合所述数据集，得到所述处理后数据。处理后数据包括：药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据，得到处理后数据。其中，预处理过程是对采集到的数据进行符号化处理，将药物的SMILE转化为摩根化学指纹，蛋白的氨基酸序列转化为可以输入的数字特征，然后根据药物蛋白和疾病的和关系构建关联矩阵。

之后基于这些处理后数据，本实施例构建了四个子模型：蛋白质序列编码模型、分子机制共编码模型、临床功能共编码模型和DPI预测模型。其中，蛋白质序列编码模型基于双向长短期记忆(Bi-LSTM)神经网络构建，它可以从长度灵活的氨基酸序列中提取蛋白质特征。分子机制共编码模型是基于全连接神经网络构建的，该模型通过同时对药物和蛋白质的分子机制进行编码，从而将药物和蛋白质的原始特征投影到一个共同的嵌入空间中。因此，后续的模型就可以捕捉到它们的嵌入特征之间的一致性。同样，另一个基于全连接神经网络的临床功能共编码模型，将药物和蛋白质的临床信息编码在一起。根据这两个共编码模型的结果，在本实施例中，还构建了一个基于卷积神经网络的DPI预测模型来计算药物-蛋白质对的相互作用概率。

如图1所示，首先使用蛋白质序列编码模型对数据集中的蛋白质进行编码，从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征。

设R＝{r₁，r₂，...，r_m}表示数据集中的m种药物。基于它们的SMILES，本实施例对每种药物构建了1024维扩展连通性指纹(ECFPs)，得到了化学指纹矩阵F^fp∈R^m×1024。如果药物r_i具有第j个分子结构或化学性质，则将设为1，否则/>设P＝{p₁，p₂，...，p_n}表示数据集中的n个蛋白质。每个蛋白质对应一个由23种常见氨基酸组成的氨基酸序列。数据集中q种疾病集合由D＝{d₁，d₂，...，d_q}表示。基于已知的DPIs，本实施例构建了一个R^m×n维的药物-蛋白相互作用矩阵Y^RP。如果药物r_i和蛋白质p_j之间存在已知的相互作用，则/>设为1。否则/>同样，基于药物、蛋白质和疾病之间多种类型的相互作用和内部相互作用，分别构建了药物-药物相互作用矩阵Y^RR∈R^m×m、药物-疾病相互作用矩阵Y^RD∈R^m×q、蛋白质-蛋白质相互作用矩阵Y^PP∈R^n×n和蛋白质-疾病相互作用矩阵Y^PD∈R^n×q。基于BLOSUM62替换矩阵将蛋白质序列转换为神经网络可以接收的向量形式。对于一个具体的蛋白质p_i，可以得到基于其氨基酸序列/>的特征矩阵，其中l表示p_i的序列长度。使用蛋白质序列编码模型，得到了n个蛋白质序列的最终表示矩阵/>

为了将文本形式的蛋白质序列转换为神经网络可以接收的向量形式，将上述P中的所有蛋白质按照BLOSUM62替换矩阵进行转换。蛋白质p_i中的每个氨基酸a_j用它与23种常见氨基酸之间的替代得分表示。因此，对于蛋白质p_i，可以得到基于其氨基酸序列的特征矩阵，其中l表示p_i的序列长度。

蛋白质序列编码模型定义了一个Bi-LSTM层来学习每个蛋白质的表示。在Bi-LSTM的前向输入过程中，定义了三个门——遗忘门输入门/>和输出门/>以控制在每个时间步中遗忘前一时刻的信息的多少和保留当前时刻的信息的多少。这些门定义如下:

其中，σ表示sigmoid激活函数，表示连结操作。及/>分别是前馈过程中三个门的权重矩阵和偏置向量。/>表示前t－1个氨基酸从Bi-LSTM层中学习到的嵌入。/>表示蛋白质p_i的第t个氨基酸学习到的嵌入。前t个氨基酸的嵌入/>可以通过下面的公式计算：

其中，⊙表示按元素乘积。表示前t个氨基酸的嵌入输入到前馈过程中得到的单元状态，它由前t－1个氨基酸的单元状态/>和第t个氨基酸的单元状态/>联合计算得到，定义如下:

在计算的过程中，遗忘门/>控制着前t－1个氨基酸的信息被遗忘的程度，输入门/>决定着第t个氨基酸的信息被保留的程度。第t个氨基酸的单元状态/>由下面公式求得：

其中，和/>分别表示计算第t个氨基酸单元状态的权重矩阵和偏置向量。设和/>分别表示Bi-LSTM的正反馈过程和负反馈过程中/>的积分结果。序列/>的Bi-LSTM层编码结果可以通过连接/>和/>得到。具体描述如下:

由于DNNCC对不同长度的蛋白质序列进行了填充操作，因此动态设置每个蛋白质在Bi-LSTM层中的最大时间步长t为其真实长度。通过这种方式，填充的零将不会被引入到h_i。最后，h_i被一个全连接层压缩，该层的定义如下:

其中W₁和b₁分别表示全连接层的权值矩阵和偏置。因此，DNNCC得到了得到了n个蛋白质序列的最终表示矩阵n个蛋白质序列的最终表示矩阵/>

之后，通过分子机制共编码模型对药物和蛋白质的分子机制进行共同编码，如图2所示。一个分子的分子机制可以用它与其他分子之间的相互作用来表示。因此，DNNCC将药物-药物相互作用矩阵Y^RR与药物-蛋白质相互作用矩阵Y^RP连接，得到药物机制矩阵其中/>同样，蛋白质机制矩阵/>可以定义为/>其中Y^PR是Y^RP的转置。

事实上，许多分子对之间存在相互作用，但它们迄今尚未被验证。因此，三个交互矩阵都面临着严重的标签缺失。基于化学性质相似的分子可能与同一分子相互作用的假设，DNNCC试图通过推断一个分子与其相似分子的机理来补全和/>

因此，DNNCC根据药物的ECFPs计算药物间的Jaccard相似度。根据步骤一中得到的蛋白质的分子属性特征，计算了蛋白质间的余弦相似性。这样可以得到药物相似矩阵S^R∈R^m ^×m和蛋白质相似矩阵S^P∈R^n×n。完备的药物机制矩阵和蛋白质机制矩阵可按下面的公式计算：

为了保证药物和蛋白质的原始特征投影到相同的嵌入空间，DNNCC构建了基于全连接神经网络的分子机制联合编码模型。药物机制和蛋白质机制/>的低维特征矩阵可根据下面的公式计算：

其中σ表示sigmoid激活函数，W_M，h和b_M，h表示第h全连接层的权重矩阵和偏置。和/>表示第h隐层的输出。DNNCC以/>和/>作为药物和蛋白质的最终机制特征矩阵，并用/>和/>表示。k_M表示药物和蛋白质嵌入机制特征的维度。由此得到第一编码结果。

此外，本实施例还设计了临床功能共编码模型用于药物与蛋白质临床功能共同编码，如图3所示。

DNNCC将与一种药物或一种蛋白质相关的疾病视为这种药物或蛋白质的临床功能。与分子机制共编码模型类似，DNNCC构建了一个临床功能联合编码模型，分别从药物-疾病关联矩阵Y^RD和蛋白质-疾病关联矩阵Y^PD中学习药物和蛋白质的低维临床特征。它可以定义如下:

DNNCC设置和/>作为药物和蛋白质的嵌入临床特征矩阵，并用和/>表示。其中，k_F表示嵌入临床特征的维度。

DNNCC将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接，得到药物的综合特征矩阵，用/>表示。同样，DNNCC也得到了蛋白质的综合特征矩阵/> 或/>中的每一行代表一种药物或一种蛋白质的综合特征。由于DNNCC的联合编码策略，/>中的一列的表示的意义与/>中的同一列表示的意义是一致的。由此得到第二编码结果。

通过上述两个步骤的共同编码得到的第一编码结果和第二编码结果，得到药物和蛋白质的低维特征向量。最后，使用一个基于卷积神经网络的DPI预测模型，对数据集中的每个药物-蛋白质对进行打分，预测它们间存在相互作用的可能性，如图4所示。

DNNCC建立了基于卷积神经网络的DPI预测模型，计算药物-蛋白质对的相互作用倾向。以药物r₂和蛋白质p₁为例，DNNCC构建药物-蛋白质对的特征向量如图4所示。/>包括r₂和p₁的分子机制特征，以及它们的临床信息。

DPI预测模型由两个卷积层、两个最大池化层和一个全连接层组成。卷积核大小设置为(w_h，w_w)，这意味着在卷积层输出的特征图中，每个特征都是基于中w_h×w_w大小的特征图来计算的。为了获取/>的边界信息，我们还用零填充/>的边界。填充特征图用/>表示，其中pad表示填充层数。在每个卷积层中，总共设置n_conv个卷积核，从多个视图中提取F^pad中的潜在特征。如果我们用W_conv，k和b_conv，k来表示第k个卷积核中的权值和偏差。那么卷积过程可以定义为：

F^pad(i,j)＝F^pad(i：i+w_h-1,j：j+w_w-1),

Z_l，k(i,j)＝σ(F^pad(i,j)×W_conv，k+b_conv，k)，

∈[1,2+2*pad-w_h+1]，

j∈[1,k_M+k_F+2*pad-w_w+1]，

k∈[1,n_conv]，。

其中，Z_l，k表示第l层卷积层中第k个卷积核计算出的特征映射。σ表示sigmoid激活函数。为了进一步提取特征图中的重要信息，减少参数的数量，DNNCC使用max-pooling操作压缩Z_l，k。max-pooling操作定义如下：

Z_l，k(i,j)＝Z_l，k(i：i+w_h-1,j：j+w_w-1),

Z′_l，k(i，j)＝max(Z_l，k(i,j)).

最后，DNNCC将最大池化层输出的特征映射Z_l，k压缩为一个向量并使用一个完全连接层计算r₂和p₁之间的交互得分：

其中W_fc和b_fc分别为全连接层的输出、权重矩阵和偏置。/>中的第一个元素表示r₂不能与p₁相互作用的可能度，第二个元素表示r₂与p₁的相互作用倾向。设/>表示/>的第二个元素，/>越大，表示r₂和p₁之间存在相互作用的可能性越大。

DNNCC损失计算公式为:

其中，表示真实标签，表示r_i和p_j之间是否存在相互作用，/> 表示DNNCC预测的药物r_i与蛋白质p_j相互作用的可能性，其中/>的取值范围也在0到1之间。

在大多数情况下，未知DPI(阴性样本)的数量远远大于已知DPI(阳性样本)，导致已知DPI和未知DPI之间存在严重的类失衡(在我们的数据集中，已知DPI:未知DPI的比例约为1:555)。此外，将未观察到的DPIs直接作为负样本是不合理的。因此，DNNCC对损失函数进行了如下更新:

如果否则r_i，p_j∈Ψ。|Ω|和|Ψ|分别表示Ω和Ψ中的元素个数。μ为负样本数与正样本数之比，其中μ＝|Ψ|/|Ω|。减少了被误分类的负样本对损失的贡献。这样一来，DNNCC既缓解了负样本标签不可靠带来的负面影响，又缓解了类别失衡的影响。作为一个端到端深度学习框架，DNNCC通过最小化模型的最终损失来优化模型中的所有权重矩阵和偏置。

为验证本申请模型的性能，本实施例还设计了五倍交叉验证，证明了其预测准确性在AUC和AUPR两种评价指标上优于几个最先进(state-of-the-art)的DPI预测方法，包括：DPINet、GRMF、AEFS、NGDTP和GraphDTA。如图5和图6所示。

实施例二

如图7所示，为本申请实施例二的系统结构示意图，包括：采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块。其中，采集模块用于收集药物-蛋白质相互作用预测的数据集；预处理模块对数据集进行预处理，得到处理后数据；蛋白质序列编码模块用于基于处理后数据，进行蛋白质序列编码，提取蛋白质特征；分子机制共编码模块用于基于蛋白特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；临床功能共编码模块用于基于第一编码结果，将药物和蛋白质的临床信息编码在一起，得到第二编码结果；DPI预测模块用于根据第一编码结果和第二编码结果，计算药物-蛋白质对的相互作用概率。

利用采集模块收集药物-蛋白质相互作用预测的数据集，之后预处理模块利用符号化方法整合数据集，得到处理后数据。得到的处理后数据包括：药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。

之后，使用蛋白质序列编码模块对处理后数据中的蛋白质进行编码，从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征之后，通过分子机制共编码模块和临床功能共编码模块对药物和蛋白质的分子机制和临床功能进行共同编码，得到药物和蛋白质的低维特征向量。最后，使用DPI预测模块，对数据集中的每个药物-蛋白质对进行打分，预测它们间存在相互作用的可能性。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种药物-蛋白质相互作用预测方法，其特征在于，步骤包括：

收集药物-蛋白质相互作用预测的数据集；

对所述数据集进行预处理，得到处理后数据；

基于所述蛋白质特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；

根据所述第一编码结果和所述第二编码结果，计算药物-蛋白质对的相互作用概率；

得到所述第一编码结果的方法包括：基于全连接神经网络构建分子机制共编码模型，同时对所述药物和蛋白质的分子机制进行编码，从而将所述药物和蛋白质的原始特征投影到一个共同的嵌入空间中；步骤包括：

将药物-药物相互作用矩阵Y^RR与药物-蛋白质相互作用矩阵Y^RP连接，得到药物机制矩阵，其中/>；将蛋白质-蛋白质相互作用矩阵/>与蛋白质-药物相互作用矩阵Y^PR连接，得到蛋白质机制矩阵，将蛋白质机制矩阵定义为/>，其中，m表示药物种类；n表示蛋白质个数；Y^PR是Y^RP的转置；并通过推断一个分子与其相似分子的机理来补全/>和/>；

之后，根据药物的ECFPs计算药物间的Jaccard相似度，并根据蛋白质的分子属性特征，计算蛋白质间的余弦相似性，得到药物相似矩阵和蛋白质相似矩阵；完备的药物机制矩阵/>和蛋白质机制矩阵/>按以下公式计算：

药物机制/>和蛋白质机制/>的低维特征矩阵根据以下公式计算：

其中σ表示sigmoid激活函数，/>和/>表示第h全连接层的权重矩阵和偏置；/>和/>表示第h隐层的输出；

最后，以和/>作为药物和蛋白质的最终机制特征矩阵，并用/>和表示，k _M表示药物和蛋白质嵌入机制特征的维度，得到所述第一编码结果；

得到所述第二编码结果的方法包括：基于全连接神经网络构建临床功能联合编码模型，分别从药物-疾病关联矩阵Y^RD和蛋白质-疾病关联矩阵Y^PD中学习药物和蛋白质的低维临床特征，定义如下：

设置/>和/>作为药物和蛋白质的嵌入临床特征矩阵，并用/>和/>表示；其中，k_F表示嵌入临床特征的维度；

之后，将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接，得到药物的综合特征矩阵，用/>表示，同时，将蛋白质的低维机制特征矩阵/>与蛋白质的临床特征矩阵/>连接，得到蛋白质的综合特征矩阵/>；/>或/>中的每一行代表一种药物或一种蛋白质的综合特征，由于联合编码策略，/>中的一列的表示的意义与/>中的同一列表示的意义一致，由此得到所述第二编码结果。

2.根据权利要求1所述的药物-蛋白质相互作用预测方法，其特征在于，得到所述处理后数据的方法包括：利用符号化方法整合所述数据集，得到所述处理后数据。

3.根据权利要求1所述的药物-蛋白质相互作用预测方法，其特征在于，所述处理后数据包括：药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。

4.根据权利要求3所述的药物-蛋白质相互作用预测方法，其特征在于，提取所述蛋白质特征的方法包括：基于双向长短期记忆神经网络构建蛋白质序列编码模型，从长度灵活的所述氨基酸序列中提取所述蛋白质特征。

5.根据权利要求1所述的药物-蛋白质相互作用预测方法，其特征在于，计算所述药物-蛋白质对的相互作用概率的方法包括：构建基于卷积神经网络的DPI预测模型，通过所述第一编码结果和所述第二编码结果来计算药物-蛋白质对的相互作用概率。

6.一种药物-蛋白质相互作用预测系统，其特征在于，包括：采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块；

所述采集模块用于收集药物-蛋白质相互作用预测的数据集；

所述分子机制共编码模块用于基于所述蛋白质特征，同时对药物和蛋白质的分子机制进行编码，得到第一编码结果；步骤包括：

所述临床功能共编码模块用于基于所述处理后数据，将所述药物和蛋白质的临床信息编码在一起，得到第二编码结果；步骤包括：基于全连接神经网络构建临床功能联合编码模型，分别从药物-疾病关联矩阵Y^RD和蛋白质-疾病关联矩阵Y^PD中学习药物和蛋白质的低维临床特征，定义如下：

之后，将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接，得到药物的综合特征矩阵，用/>表示，同时，将蛋白质的低维机制特征矩阵/>与蛋白质的临床特征矩阵/>连接，得到蛋白质的综合特征矩阵/>；/>或/>中的每一行代表一种药物或一种蛋白质的综合特征，由于联合编码策略，/>中的一列的表示的意义与/>中的同一列表示的意义一致，由此得到所述第二编码结果；所述DPI预测模块用于根据所述第一编码结果和所述第二编码结果，计算药物-蛋白质对的相互作用概率。