CN111599403B

CN111599403B - 一种基于排序学习的并行式药物-靶标相关性预测方法

Info

Publication number: CN111599403B
Application number: CN202010439136.8A
Authority: CN
Inventors: 邹权; 茹晓青
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-03-14
Anticipated expiration: 2040-05-22
Also published as: CN111599403A

Abstract

本发明公开了一种基于排序学习的并行式药物‑靶标相关性预测方法，属于生物信息学领域。该方法通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间特征、基因空间特征，继而由于多角度的特征提取会得到较高维数的特征集且样本无常规的正反例类标签，故用主成分分析法进行降维处理，然后将降维后的特征集输入排序学习算法中最终会预测输出每种查询下所涉及的药物与靶标的相关性程度。利用排序学习不再是简单的将药物与靶标的关系划分为相关或不相关，而是依据二者的相关性程度进行了排序，这样不仅有利于新药研发，还有利于药物的重定向。

Description

一种基于排序学习的并行式药物-靶标相关性预测方法

技术领域

本发明属于生物信息系领域，具体涉及一种基于排序学习的并行式药物-靶标相关性预测方法。

背景技术

预测药物-蛋白质的相关性的方法技术有很多。传统的预测方法分为基于配体和基于靶标两种类型：基于配体的方法需要靶标蛋白的已知的配体的相关性信息，并以此来定义药效团模型来描述结合配体的共有特征，这也就表明这种类型的方法不适用于已知的配体信息较少的情况；基于靶标的方法需要提前获得靶标的3维结构，但是部分蛋白质序列的3维结构未知且难以获取。

传统的预测方法虽然能保证较高的准确率，但是会耗费大量的时间、金钱。现在很多研究者将机器学习引入到相关研究中，用机器学习进行预测的方法分为基于特征和基于相似度两种类型。机器学习的引入的确在速度方面取得了很大进步，但是无论是基于特征的方法还是基于相似度的方法均存在一定的不足之处：基于相似性的方法一方面是仅仅依靠单方面(药物或靶标)的相似性，二是当已知的能与靶标(或配体)起作用的配体(或靶标)数量较少时，通过待测物与仅有的少数样本的相似性就得出是否相关的结论，这样显然不具备足够的说服力；利用基于特征的方法时，可能由于所用算法的原因无法将药物信息、蛋白质序列信息用数字的形式很好的表示出来。

除此之外，用机器学习预测药物-蛋白质相关性时，很多研究者只是简单的预测了药物与蛋白质是否相关，即将研究归为二分类问题，并未对药物-蛋白质的相关性程度进行更深一步的探究，即没有更进一步的探究哪种蛋白质(药物)与给定药物(蛋白质)相关性最强。

发明内容

本发明的目的在于：针对上述现有技术中存在的不足，提供一种基于排序学习的并行式药物-靶标相关性预测方法。

本发明采用的技术方案如下：

一种基于排序学习的并行式药物-靶标相关性预测方法，包括：

S1.获取药物的化学结构样本集和靶标的序列样本集；

S2.基于所述药物的化学结构样本集和靶标的序列样本集，提取药物特征信息、靶标特征信息和二者的关联特征信息；

S3.将所述药物特征信息、靶标特征信息和二者的关联特征信息组合，然后进行降维处理；

S4.以所述降维处理得到的特征集为输入，查询与药物或靶标相关的蛋白质或配体，采用排序学习方法进行排序，并计算相关性大小，然后按输出的值大小依次排序；

S5.将所得排序顺序与真实相关性顺序作对比；将所得排序结果进行投票处理；采用不同类型测试集测试泛化能力。

本发明通过采用排序学习算法对药物与蛋白质的相关性程度进行排序，而不是简单的将药物-蛋白质的关系归为相关或是不相关。同时，利用排序学习算法可以将通过多种技术手段获得的多种类型的信息集成，实现特征算法之间的取长补短，从而提高性能。

进一步地，S1中靶标对象为G蛋白偶联受体，药物对象为与其相关或不相关的。

进一步地，S2中药物特征信息由2D指纹、药物描述符表示，靶标特征信息由氨基酸的理化性质、频率分布、进化信息表示，二者的关联特征信息由k-NN、BLM-svr、NetLapRLS计算得出。不同的算法有其各自独特的优点和不足，通过采用多种特征提取算法基于药物、靶标、药物-靶标三个角度并行的提取其化学空间特征、基因空间特征、相似度及相关性特征，可实现算法间的取长补短，以进一步提高技术性能。

进一步地，所述S2中在药物重定向方面通过构建异质网络，包括药物-药物、药物-疾病、药物副作用、药物相似性相关性网络提取特征信息。

进一步地，S3中采用主成分分析法(PCA)进行降维处理。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量，去除冗余的特征信息，缩短实验周期，另外，PCA降维适用于没有明确的正反例类标签的特征集。

进一步地，S4中，将输入文件转化为标准格式：

其中，q_i表示某一查询，F^j表示样本j的所有特征，

表示相关性程度。

进一步地，S4中，对于输出的相关性数值，应关注其之间的相对大小而非精确数值。

进一步地，S5中真实相关性由药物与靶标之间的亲和力值表示。

进一步地，亲和力值为IC50，将所述IC50取其对数负值

来直观表示药物与靶标的相关性程度。IC50值可以用来衡量药物诱导凋亡的能力，即诱导能力越强，该数值越低。但药物-蛋白对的IC50值会存在数值差异较大的情况，为了更直观的观察出药物-蛋白对的相关性，需要对药物-靶标之间的亲和力值进行处理，通常使用

表示。取对数可解决数值差异悬殊对后续实验的影响，再对对数取负值更加符合统计数据的思维逻辑，即最终结果的数值越大，表示相关性越强。

进一步地，S5中通过NDCG值来衡量排序学习算法的性能，NDCG值越大说明性能越好，从而能够验证本发明方法的有效性；对于前K个位置的药物-蛋白对，NDCG值的计算公式如下：

其中，K表示只计算输出的前K个位置的查询结果，ri为第i个位置的药物-蛋白质对预测出的相关性，R为第i个位置的药物-蛋白质对真实的相关性。

进一步地，对排序结果进行投票处理是为了观察哪些药物-蛋白对总是出现在前K个位置，能够进一步提高模型对于未知相关性的药物-蛋白对的相关性预测能力。

进一步地，S5中，通过调整不同类型的测试集中的样本分别测试在新药研发、药物重定向方面的性能。当测试集中的蛋白质从未在训练集中出现时，可用于验证老药新用；当测试集中的药物从未在训练集中出现时，可验证这些药物具体可在哪些蛋白质上发挥作用。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中基于排序学习，即通过采用排序学习算法对药物与蛋白质的相关性程度进行排序，不仅有利于新药研发，还有利于药物的重定向；

2、本发明为并行式的预测方法，其并行性体现在两个方面：一是排序学习具备的并行性，即可同时预测多个药物(靶标)与蛋白质(配体)的相关性；二是实验步骤和程序的并行性，即可并行的提取包括基于药物、基于蛋白质等的特征信息；

3、本发明通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间特征、基因空间特征，继而对数据进行降维处理，去除冗余，使得计算更高效轻便，然后将降维后的特征集输入排序学习算法中最终会预测输出每种查询下所涉及的药物与靶标的相关性程度；

4、本发明利用排序学习算法可以将通过多种技术手段获得的多种类型的信息集成，实现特征算法之间的取长补短，从而提高性能；

5、本发明通过调整测试集中的样本分别测试模型在新药研发、药物重定向方面的性能，实现一种技术的多角度应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测的流程图；

图2为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测所支持的数据文件类型参考示意图；

图3为实施例1中采用PCA技术进行降维前后的示意图；

图4为排序学习算法的原理示意图；

图5为实施例1中排序学习算法计算得到的各药物-蛋白对的相关性预测结果；

图6为实施例1中排序学习算法计算输出的文件中的部分内容结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例

参照图1，本发明较佳的实施例提供了一种基于排序学习算法的并行式药物-靶标相关性预测，包括：

S1、获取药物的化学结构样本集和靶标的序列样本集；

S2、基于上述样本集，采用多种特征提取算法提取药物、靶标、药物-靶标三个角度并行的提取其化学空间特征、基因空间特征、相似度及相关性特征；

S3、将所有的数据特征进行组合，用主成分分析法(PCA)对特征集进行降维处理；

S4、以降维得到的特征集为输入，采用多种排序学习方法排序各个查询(药物或靶标)下与之较为相关的蛋白质或配体，计算所涉及的各个蛋白质或配体与查询的相关性大小，并按输出的值大小，将数据依次排序；

S5、将预测出的排列顺序与真实相关性顺序作对比(以NDCG值衡量)，从而验证此发明中所提出方法的有效性，其中，真实相关性由药物与靶标之间的亲和力值IC50表示，取其对数负值

更直观地表示药物与靶标的相关性程度；

S6、将步骤S4输出的多种排序结果进行投票处理，以进一步提高模型对于未知相关性的药物-蛋白对的相关性预测能力；

S7、用不同类型的测试集测试模型的泛化能力。

其中，药物以smiles形式表示，蛋白质用序列形式表示。

其中，数据文件的标准格式为：相关性，查询，特征信息。

如图2所示的即为排序学习所要求的标准文件格式，标准的文件格式与libsvm所要求的文件格式基本一致，只是添加了一列查询数据。

在本实施例S2中，药物信息仅用部分药物描述符表示、蛋白质序列仅用基于进化信息进行了特征提取。

特征提取方法有多种，可基于不同的角度进行特征提取，比如药物的化学结构信息可由2D指纹、200个药物描述符表示，蛋白质的特征可由氨基酸的理化性质、频率分布、进化信息等表示，二者的关联特征可由k-NN、BLM-svr、NetLapRLS计算得出。在药物重定向方面可通过异质网络提取相关特征，即可通过药物-药物、药物-疾病、药物副作用、药物相似性相关性网络。

具体地，上述多种角度的特征信息提取方式如下：

1、药物的2D指纹信息、200个药物描述符均可由化学信息工具包RDKit计算得出。

2、蛋白质的多种角度的特征信息可由现今已经由研究者们集成好的工具包提取，现有的工具包有pse-in-one，ifeature，ilearn等。这些工具包均可以数字的形式将蛋白质序列中包含的信息表示出来。

3、药物-蛋白质的关联特征可以协同矩阵分解、二分局部模型、K近邻算法等得出。

在本实施例的步骤S3中，基于不同的角度提取信息后特征集维数较高，用PCA技术对特征集进行降维处理，如图3即为特征集进行PCA前后的特征集表示。

采用PCA技术的具体计算过程如下：

1、对各维特征进行去均值化处理，即计算得出各维特征的均值后，对所有样例都减去其对应的均值。

2、获得特征的协方差矩阵，以2维特征为例，计算公式如下：

其中

分别为两维特征的均值。n表示样本数。

3、计算协方差矩阵的特征值和特征向量，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个，选择其中最大的那个。

4、将样本点投影到选取的特征向量上，这样就将2维特征降为了1维特征。

在本实施例的步骤S4中，采用多种排序学习方法排序各个查询(药物或靶标)下，与之较为相关的蛋白质或配体。

排序学习的基本原理如图4所示。排序学习可分为三种类型：Pointwise、Pairwise、Listwise，每种类型下都对应着不同的算法。Ranklib是一个学习排名算法的库，目前已经实现了上述三种类型中的多种排名算法，包括LambdaMART、RFranker、ListNet、AdaRank、MART、RankBoost、RankNet、Coordinate Ascent、Linear regression。本实施例直接调用Ranklib算法库进行排序计算。

在本实施例的步骤S5中，以NDCG为评价准则，通过排序学习会输出预测的排序结果，如图5即为基于实施例所用数据集输出的结果与真实排序的数据对比图。

一般情况下，需要进行的查询均远远大于2个，每个查询下对应的药物-蛋白对也均在大于1个以上。上述实施例为了便于阅读，均只展示较少的样本。利用排序学习除了可以输出预测出的排序结果，还可以选择输出利用训练数据在各个方法下训练出的模型，以及模型在训练集对应的NDCG值。训练出的模型可直接用于后续的测试部分。如图6(a)列出了RFranker方法在默认参数下输出的NDCG值，如图6(b)列出了训练出的模型的一小部分。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。