CN114420201A

CN114420201A - 一种多源数据高效融合的药物靶标相互作用的预测方法

Info

Publication number: CN114420201A
Application number: CN202210071277.8A
Authority: CN
Inventors: 张媛媛; 杜丙瑜; 吴梦洁; 王淑栋; 陈蔚
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-29

Abstract

本发明提出了一种基于多源数据高效融合的药物靶标相互作用的预测方法，首先，通过对药物和靶点多源数据进行分类，将多源数据融合或拼接。对于原始数据，根据药物或靶标的生物学特性，分别划分为几类。当类别中存在多个网络时，根据网络的特点选择融合节点特征或拼接节点特征。其次，网络嵌入方法获得高质量、丰富的节点低维特征表示。最后，使用正向无标记学习来预测潜在的DTIs。本发明根据数据的性能对其进行分类，并在融合过程中对分类后的数据进行不同权重的处理，使不同类别的药物和靶点能够进行自适应融合。在制药生物试验前，通过计算机技术学习获得候选药物靶标，大大减少了生物对照试验的时间和金钱成本，缩短制药周期。

Description

一种多源数据高效融合的药物靶标相互作用的预测方法

技术领域

本发明属于生物信息技术领域，涉及药物靶标的融合，特征提取和预测方法。

背景技术

药物是通过作用于疾病的靶点而达到药理作用的。因此，准确识别药物靶点相互作用(Drug Target interaction，DTI)对了解药物治疗机制和发现治疗疾病的新药具有重要意义。目前，药物与靶标多源数据相结合的计算方法可以有效降低生物制药工艺前对照试验的失败率。这类方法主要是利用机器学习框架来学习药物和预测目标的特征。在多源数据处理方面，通常很容易对不同源数据的特征进行拼接。因此，如何充分利用不同源数据对DTI预测的贡献进行高效融合是提高DTI预测精度的关键。

在过去的几十年里，大量的预测DTI的计算方法已经被开发出来。在DTI预测的计算策略中，经常考虑药物和靶标数据的多个来源。传统的单源数据预测DTI主要有两种形式，包括基于配体的方法和基于靶标的方法。基于配体的靶标预测是指对未知靶标和已知靶标药物的结构特征进行分析和比较，根据相似性原理预测潜在靶标。相似度的选择通常取决于配体的化学结构或物理化学性质。然而，单一数据源中已知的靶蛋白配体数量不足，基于配体的方法预测结果可能不可靠。同样，基于靶标的方法需要知道靶标的三维结构，但目前获取蛋白质的三维结构非常耗时，一些靶标无法获得三维结构，这使得基于靶标的方法难以在全基因组范围内使用。

目前，有研究也使用多源数据建立了deepDTnet模型来预测DTI，它使用了一个简单的剪接多个网络数据的模型同等对待。具体地说，DeepDTnet包括两个关键步骤：(1)应用深度神经网络算法进行网络嵌入，将网络中的每个顶点嵌入到低维向量空间；(2)由于缺乏公开可用的负样本，使用了PU矩阵补全算法，这是一种向量空间投影方案，用于预测新的药物-靶点相互作用。DeepDTnet嵌入了15种类型的化学网络、基因组网络、表型网络和细胞网络，并应用深度神经网络算法来学习每个节点的特征的低维矢量表示。在学习了药物和靶标的特征矩阵之后，DeepDTnet应用PU矩阵补全来寻找从药物空间到靶(蛋白质)空间的最佳投影，使得所投影的毒品的特征向量在几何上接近其已知相互作用的目标的特征向量。最后，DeepDTnet根据与药物在投影空间中的投影特征向量的几何接近程度来推断药物的新目标。

药物与靶蛋白相互作用的预测对于提高新药发现的速度和准确性具有重要意义。传统的实验方法在识别新的DTI方面是非常昂贵和耗时的。高效计算方法为提高DTI预测的效率和精度提供了更强的指导。它为药物发现提供了准确的候选药物，进一步降低了药物发现的成本和时间。目前，大量的研究都集中在DTI预测上，并取得了显著的成果。

随着公共数据集的日益可用性，大量多源数据被用于研究药物和靶点的性质，以预测DTI。药物和靶点的多源数据不仅包含了药物和靶点的固有特征，而且还包含了基于药物副作用等其他属性的网络拓扑信息。因此，考虑多源数据的拓扑和特征信息，探索综合网络的类网络权重，如何有效地融合多源数据，是DTI准确识别的一个挑战。

发明内容

本发明提供了一种基于多源数据高效融合的药物靶标相互作用的预测方法，包括以下步骤：

步骤一：分别对药物和靶标的拓扑结构数据和特征属性数据按照生物特性分类，将药物和靶标分类网络组合输入后续的正无标记预测模型获得不同组合预测结果性能指标；

步骤二：分析类网络组合试验指标，分别对药物和靶标多来源数据进行基本融合或拼接，包括类网络筛选，网络融合，熵加权融合和反向softmax加权融合；当类别中存在多个网络时，对含多个网络的类网络做了拼接和融合的比较分析，根据网络的特点选择融合节点特征或拼接节点特征；

步骤三：将融合或拼接后的药物和靶标网络分别输入网络嵌入模型，计算药物和靶标的低维特征表示即网络提取的特征向量；

步骤四：将药物和靶标的低维特征表示输入正无标记预测模型，获得预测性能指标和预测药物靶标作用得分。

进一步的，所述步骤二中的基本融合方法为相似性网络融合，以药物网络融合步骤如下：

(1)基于Jaccard系数计算异质关联矩阵的相似矩阵；

(2)计算药物各类网络的边权矩阵、归一化矩阵和局部亲和性矩阵；

(3)每类网络迭代更新t次；

(4)经过t次迭代，计算融合矩阵。

进一步的，所述步骤二在基本融合方法——相似性网络融合的基础上实现四种改进方法，如下：

(1)选择融合，对药物和靶标的类网络根据步骤一的网络组合试验性能筛选类网络，再基于基本融合方法融合筛选后的网络，从而输入正无标记预测模型；

(2)基于熵的加权融合，在分别融合药物和靶标网络前，对待融合的每个类网络计算熵值作为输入融合方法的网络权值；

(3)基于预测性能的加权融合，基于步骤一的组合试验性能指标之一的AUROC，分别对药物和靶标的类网络计算softmax值，将待融合的每个类网络以sofamax加权后输入相似性网络融合模型；

(4)选择加权融合，结合上述(2)和(3)两个角度的融合策略，使得预测模型性能更优。

进一步的，所述步骤(1)中矩阵计算如下：

矩阵元W_l(d_i，d_j)定义如下：

其中L表示药物相似度网络个数，M_l表示药物相似度网络l(l＝1，2…L)的邻接矩阵，ρ²(d_i，d_j)表示药物d_i和d_j之间的欧氏距离，d_i为第i个药物与所有其他药物之间的相似性向量，μ为超参数，ε_ij描述如下：

其中N_i＝{d_j|M_l(d_i，d_j)＞0}表示网络1中药物的邻居，mean(ρ(d_i，N_i))是d_i与其邻居之间距离的平均值；

通过计算矩阵对所有数据类型进行归一化，归一化矩阵E_l(d_i，d_j)描述如下：

使用K个最近邻(KNN)度量局部亲和度S_l(d_i，d_j)为：

其中

代表药物d_i的K个邻居。

进一步的，所述步骤(3)中t次迭代后矩阵E_l的平均值，得到状态矩阵E^(G)如下：

进一步的，所述步骤二中熵加权融合，首先对每个网络计算熵，对于任意矩阵M_l，节点d_i的熵定义如下：

其中m_ij表示矩阵M_l的一个元素。然后得到所有行的平均熵为：

最后，以熵为权值，更新M_l如下：

EW_l＝M_l×E_l。

进一步的，所述步骤二中反向softmax加权融合，为使用组合结果数据来计算softmax函数。

C_d为个类别药物的数量和C_t为类别靶标的数量，

表示组合输入预测模型的药物类别c_i和靶标类别c_j的指标值之一AUROC，计算各类型药物数据的softmax值如下：

其中c_i＝1，2，…C_d，c_j＝1，2，…C_t和

然后将所有类别药物的SoftMax值取平均AD(i)，再利用SoftMax函数对药物值进行归一化，具体情况如下所示：

进一步的，步骤三中对高度稀疏性矩阵去燥降维，使用的网络嵌入模型步骤如下：

(1)随机冲浪获取每个节点的信息；

(2)计算正逐点互信息矩阵；

(3)堆叠式去噪自动编码器模型，每个堆都是一个自编码器提取网络特征表示。

进一步的，所述步骤三中数据融合处理之后，对融合后网络提取特征向量，即药物和靶标的低维特征表示，步骤如下：

第一，计算网络中每个节点的信息：

p_k＝a·p_k-1Tr+(1-α)p₀，

其中，p为向量，Tr是转移概率；

第二，计算所有节点的正逐点互信息如下：

其中Pco是在第一步过程可得到的概率共现矩阵；

第三，堆叠去燥自编码器提取特征目标函数：

其中，WE_y是权重矩阵。

进一步的，所述步骤四中正无标记预测模型，模型的优化问题参数化为：

其中，r_ij＝1表示已知药物靶标相互作用；Ω＝Ω⁺+Ω^-表示所有训练样本，Ω⁺为正样本，Ω^-为未观察的样本；Z＝U×V^T为低秩矩阵。

与现有技术相比，本发明的有益之处为：

本发明提出了一个框架，该框架由以下三个主要组件组成。首先，通过对药物和靶点多源数据进行分类，可以将多源数据融合(包括选择性融合和加权融合)或拼接。对于原始数据，它包括拓扑图(如药物药物相互作用，药物副作用和药物疾病关联网络，靶标靶标相互作用和靶标疾病关联网络)和特征图(如药物相似性网络和靶标相似性网络)，并根据药物或靶标的生物学特性，将药物或靶标相关网络分别划分为几类。当类别中存在多个网络时，本发明根据网络的特点选择融合节点特征或拼接节点特征。其次，网络嵌入方法获得高质量、丰富的节点低维特征表示。最后，本发明使用正向无标记学习来预测潜在的DTIs(Drug Target interactions)。目的是通过从多个数据源根据药物和靶点的拓扑结构和特征网络对其进行分类，探索预测DTIs的最优方案。

本发明根据数据的性能对其进行分类，得到了良好的结果，并在融合过程中对分类后的数据进行不同权重的处理，使不同类别的药物和靶点能够进行自适应融合。在制药生物试验前，通过计算机技术学习获得候选药物靶标，从而大大减少了生物对照试验的时间和金钱成本，缩短制药周期。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明基于多源数据高效融合的药物-靶相互作用预测方法及系统的框架；

图2是靶标相关数据的分类示意图；

图3是药物相关数据的分类示意图；

图4是药物类网络组合试验对比图；其中，*T4S表示靶标的第四类网络包含多个网络，存在融合和拼接的选择问题，比较试验后选择拼接；

图5是靶标类网络组合试验对比图；*D2F和D6F分别表示药物的第二类和第六类网络包含多网络，在选择融合和拼接时选择了融合效果更佳；

图6是以药物为例的相似性网络融合算法；

图7是选择融合的试验对比图；*在精度，召回，F1-score，AUROC和AUPR，为便于描述，模型中的缩写词表示为：D、T分别为药物和靶标；F和S为融合和拼接；DE描述删除；后面跟着数字的D或T表示正在删除的数据类型。

图8是加权融合的试验对比图；*加权融合在精度、召回率、F1-score、AUROC和AUPR。缩写WE、WEC和WAC分别表示非分类网络熵、分类网络熵和基于预测的性能的加权试验；

图9是选择加权融合的试验对比图；*选择性加权融合在精度、召回率、F1-score、AUROC和AUPR。

图10是针对图9中效果最优模型的预测药物靶标相互作用结果的生物分析。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施案例1：

DTI预测需要对药物和靶点的多源数据进行更准确的综合分析，因此，多源数据网络比单一数据网络能够改善更全面的信息。但同时，多个数据源也可能带来一些噪声，因此对多源数据进行数据处理显得尤为重要。因此，本发明讨论了数据融合方法的相关内容。综合分析的最终结果表明，选择加权融合具有较高的融合性能。并且通过类网络的概念，我们也找到了融合方法的一个新的角度。在本发明中，我们采用了流行的融合策略和基于熵的加权融合方法来提高预测精度。根据目前的研究，药物和靶点的数据来源并不局限于此，如药物诱导的基因表达谱、药物通路谱等。因此，研究更多的药物和靶点数据来源，以多种网络补充药物和靶点的丰富性，并验证本发明策略的稳健性。

如图1所示，为本发明框架图。在虚线框内的药物和靶标对其原始数据按照生物性能做分类定义，并对融合和拼接做选择。融合操作处理后的数据输入嵌入模型，输出特征向量即低维特征表示。药物和靶标的低维特征表示输入预测器正无标记预测药物靶标作用得分矩阵S。

实施案例2：

如图2和图3所示，首先关于药物和靶标的数据包含两种性质，拓扑结构数据和特征属性数据。图2和图3列出药物和靶标的分类网络包含的网络，其中药物和靶标都有Go相似类网络且都包含三个内容，即分子功能，细胞组分和生物过程。药物的第二类网络，药物的关联网络，包含疾病和副作用关联网络用来描述药物。通过生物性能分类，药物一共9个网络被分为六类网络，靶标一共6个网络被分为四类网络。

如图4和图5，分别对药物和靶标做对比分析图。第一，药物和靶标类网络中仅包含一个网络的对比分析，如图4A和5A。第二，对于药物和靶标的类网络中包含多个网络的，如药物的第二类和第六类网络，以及靶标的第四类网络。因此我们在分别组合药物和靶标类网络时，对含多个网络的类网络做了拼接和融合的比较分析，如图4B和图5B。通过对图4和图5的综合分析，首先，我们对含多个网络的类网络药物的第二类和第六类网络确定融合效果比拼接效果更佳，靶标的第四类网络确定拼接比融合的效果更佳，因此，含多个网络的类网络药物的第二类和第六类网络对自身选择融合，靶标的第四类网络对自身选择拼接。其次，综合所有网络，我们可以得到如下结论：药物和靶标的第一类和第二类网络对预测结果总是较差，这几类网络可能属于噪音干扰预测效果，或是这几类网络对预测效果贡献度较低。

实施案例3：

对于实施案例2中的拼接是将多个矩阵横向拼成一个矩阵，即完成多个网络的合并。而对于多个网络融合，则如图6的相似性网络融合算法的描述，以药物融合为例：

第一步，对异质网络基于Jaccard系数使其变为同质相似网络；

第二步，假设有L个药物网络，让M_l表示药物相似度网络l(l＝1，2…L)的邻接矩阵，矩阵元W_l(d_i，d_j)定义如下：

其中ρ²(d_i，d_j)表示药物d_i和d_j之间的欧氏距离，d_i为第i个药物与所有其他药物之间的相似性向量，μ为超参数，ε_ij描述如下：

通过计算矩阵对所有数据类型进行归一化处理，归一化矩阵E_l(d_i，d_j)描述如下：

使用K个最近邻(KNN)度量局部亲和度S_l(d_i，d_j)为：

其中

代表药物d_i的K个邻居；

第三步，迭代更新对应于每个数据类型的相似性矩阵E_l如下：

第四步，通过计算t次迭代后矩阵El的平均值，得到状态矩阵E^(G)如下：

实施案例4：

对于实施案例3的相似性网络融合，本发明中有四种方法对其改进：

第一，选择融合，根据实施案例2中，我们分析到药物和靶标的类网络中，有些类网络对预测效果贡献度不高，因此，我们对药物和靶标的类网络筛选，去除噪音影响大的类网络，并对比试验分析，如图7，我们可以看到删除掉药物的第一类和第二类网络后的预测性能指标都相对较优。

第二，基于熵的加权融合，如图8所示为中基于类网络熵加权和基于非类网络熵加权模型指标分析。首先对每个网络计算熵。对于任意矩阵M_l，节点d_i的熵定义如下：

其中m_ij表示矩阵M_l的一个元素。然后，得到所有行的平均熵为：

最后，以熵为权值，更新M_l如下：

EW_l＝M_l×E_l；

第三，基于预测性能的加权融合，如图8所示，为了模拟反向传播的自主学习，使用组合结果数据来计算softmax函数。

假设有C_d个类别药物和C_t个类别靶标，让

表示组合输入预测模型的药物类别c_i和靶标类别c_j的指标值之一AUROC。计算各类型药物数据的softmax值如下：

其中c_i＝1，2，…C_d，c_j＝1，2，…C_t和

然后将所有类别药物的SoftMax值取平均AD(i)，再利用SoftMax函数对药物值进行归一化。具体情况如下表所示：

第四，如图9所示，选择加权融合是综合了第二和第三中改进的融合方法，对如图7和图8所示的效果较好的选择融合和加权融合的综合。

实施案例5：

对数据融合处理之后，对融合后网络提取特征向量，即药物和靶标的低维特征表示，步骤如下：

第一，计算网络中每个节点的信息：

p_k＝α·p_k-1Tr+(1-α)p₀，

其中，p为向量，Tr是转移概率；

第二，计算所有节点的正逐点互信息如下：

其中Pco是在第一步过程可得到的概率共现矩阵；

第三，堆叠去燥自编码器提取特征目标函数：

其中，WE_y是权重矩阵。

实施案例6：

最终，对药物靶标的特征表示输入预测模型——正无标记预测，模型的优化问题参数化为：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：包括以下步骤：

步骤一：分别对药物和靶标的拓扑结构数据和特征属性数据按照生物特性分类，将药物和靶标分类网络组合输入后续正无标记预测模型获得不同组合预测结果性能指标；

步骤二：分析类网络组合试验指标，分别对药物和靶标多来源数据进行基本融合或拼接，包括类网络筛选、网络融合，熵加权融合和反向softmax加权融合；当类别中存在多个网络时，对含多个网络的类网络做了拼接和融合的比较分析，根据网络的特点选择融合节点特征或拼接节点特征；

步骤三：将融合或拼接后的药物和靶标网络分别输入网络嵌入模型，计算药物和靶标的低维特征表示；

2.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：步骤二中的基本融合方法为相似性网络融合，以药物网络融合步骤如下：

(1)基于Jaccard系数计算异质关联矩阵的相似矩阵；

(3)每类网络迭代更新t次；

(4)经过t次迭代，计算融合矩阵。

3.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤二在基本融合方法——相似性网络融合方法的基础上实现四种改进方法，如下：

4.根据权利要求2所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤(1)中矩阵计算如下：

矩阵元W_l(d_i，d_j)定义如下：

其中N_i＝{d_j|M_l(d_i，d_j)＞0}表示网络l中药物的邻居，mean(ρ(d_i，N_i))是d_i与其邻居之间距离的平均值；

使用K个最近邻(KNN)度量局部亲和度S_l(d_i，d_j)为：

其中

代表药物d_i的K个邻居。

5.根据权利要求2所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤(3)中t次迭代后矩阵E_l的平均值，得到状态矩阵E^(G)如下：

6.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤二中熵加权融合，首先对每个网络计算熵，对于任意矩阵M_l，节点d_i的熵定义如下：

最后，以熵为权值，更新M_l如下：

EW_l＝M_l×E_l。

7.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤二中反向softmax加权融合，为使用组合结果数据来计算softmax函数。

C_d为个类别药物的数量和C_t为类别靶标的数量，

其中c_i＝1，2，…C_d，c_j＝1，2，…C_t和

8.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：步骤三中对高度稀疏性矩阵去燥降维，使用的网络嵌入模型步骤如下：

(1)随机冲浪获取每个节点的信息；

(2)计算正逐点互信息矩阵；

9.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤三中数据融合处理之后，对融合后网络提取特征向量，即药物和靶标的低维特征表示，步骤如下：

第一，计算网络中每个节点的信息：

p_k＝α·p_k-1Tr+(1-α)p₀，

其中，p为向量，Tr是转移概率；

第二，计算所有节点的正逐点互信息如下：

其中Pco是在第一步过程可得到的概率共现矩阵；

第三，堆叠去燥自编码器提取特征目标函数：

其中，WE_y是权重矩阵。

10.根据权利要求1所述的一种多源数据高效融合的药物靶标相互作用的预测方法，其特征在于：所述步骤四中正无标记预测模型，模型的优化问题参数化为：