CN104636636A

CN104636636A - 蛋白质远程同源性检测方法及装置

Info

Publication number: CN104636636A
Application number: CN201510057034.9A
Authority: CN
Inventors: 刘滨; 陈俊杰; 王晓龙
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2015-02-02
Filing date: 2015-02-02
Publication date: 2015-05-20
Anticipated expiration: 2035-02-02
Also published as: CN104636636B

Abstract

本发明涉及蛋白质远程同源性检测方法及装置，包括训练过程和检测过程；训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序，并在数据库中进行检索，每一个检索结果对应一个同源相似性评分，将所有检索结果降序排序，并组合成特征向量，将得到的特征向量输入基于排序学习的方法中进行训练，得到排序模型；检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量，输入训练好的排序模型进行排序，得到排序结果，根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量，然后采用排序学习方法进行训练得到排序模型，从而可以有效提高检测的准确性和稳定性。

Description

蛋白质远程同源性检测方法及装置

技术领域

本发明涉及生物信息学，具体涉及一种蛋白质远程同源性检测方法及装置。

背景技术

蛋白质远程同源性检测是蛋白质结构和功能研究中一个重要的问题，也是计算机辅助药物设计所依赖的关键技术。蛋白质远程同源性检测是指利用蛋白质序列间的相似性检测一个新的蛋白质的家族，之后利用已知蛋白质家族的结构和功能信息来预测新测定蛋白质的结构和功能。该领域中的计算方法利用蛋白质的序列信息、理化性质和进化信息提取特征，使用机器学习算法来预测蛋白质远程同源性，主要两种策略：分类策略和排序策略。分类策略的思想是把蛋白质远程同源性检测作为一个多分类问题，采用已知家族的蛋白质训练预测模型，之后该模型用于预测目标蛋白质的家族。该类方法可以较好的预测目标蛋白质的家族，但不能预测两个蛋白质之间的同源性，而且当模型中不包含目标蛋白质的家族信息时，该类方法无法正确预测。排序策略将目标蛋白质作为查询序列，计算其与数据库中已知蛋白质的相似性，将检索到的蛋白质按照同源相似性将序排列，与查询蛋白质具有较高同源相似性的蛋白质排在前面，较低同源相似性的蛋白质排在后面。排序方法可以预测两个蛋白质之间的同源性，但目前排序方法的准确率普遍较低，稳定性较差，不能取得理想的效果。因此我们提出一种融合多个蛋白质同源性检测的排序方法，通过组合不同的基排序方法来提高蛋白质远程同源性检测的效果。

发明内容

根据本发明的一个方面，提供一种蛋白质远程同源性检测方法，包括训练过程和检测过程；所述训练过程包括：将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排序，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型；所述检测过程包括：将目标蛋白质作为查询序列输入所述基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排列，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入训练好的排序模型进行排序，得到排序结果，根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。

根据本发明的另一个方面提供一种与上述方法对应的蛋白质远程同源性检测装置。

本发明的有益效果在于：通过将一组基于排序策略的蛋白质同源性检测的基排序方法的检测结果作为基于排序学习的方法的特征向量，由此融合成一个新的排序模型，从而可以有效提高蛋白质远程同源性检测的准确性和稳定性。

附图说明

图1为本发明一种实施例的蛋白质远程同源性检测方法的流程示意图；

图2为本发明一种实施例的蛋白质远程同源性检测方法的训练过程示意图；

图3为本发明一种实施例的蛋白质远程同源性检测方法的检测过程示意图；

图4为本发明一种实施例的蛋白质远程同源性检测方法中采用一个基排序方法检索的结果示意图；

图5为本发明一种实施例的蛋白质远程同源性检测方法中采用一组基排序方法检索的结果示意图；

图6为本发明一种实施例的蛋白质远程同源性检测方法中将检索结果组合成特征向量的示意图；

图7为LambdaMART排序学习方法的伪代码示意图。

具体实施方式

本发明的设计思想是基于排序学习(Learning to Rank)的方法来实现蛋白质远程同源性检测，通过组合不同排序方法来提高蛋白质远程同源性检测的精度，即首先将目标蛋白质作为查询序列，从多个基排序方法中检索出同源蛋白列表，并按同源相似性降序排列，同源性高的排在前面，然后将基排序检索结果中的同源性评分作为排序学习方法的特征，组合成特征向量，接着将特征向量输入到排序学习方法中。该方法融合了多个蛋白质远程同源性检测方法，可以有效提高排序结果的准确性和稳定性。

下面通过具体实施例结合附图对本发明作进一步详细说明。

实施例1：

如图1所示，为本实施例的蛋白质远程同源性检测方法，其包括训练过程和检测过程。

在训练过程中，对于训练集的每个查询q，首先对它的每个相关序列d进行标注，记为y，也就是进行排序，再对排序y建立特征向量x，然后对x进行学习，得到排序函数f(x)，如图2所示。在检测过程中，对于测试集中的查询q，首先对它的每个相关序列d进行标注，记为y，再对排序y建立特征向量x，使用f(x)函数对特征向量排序，得到新的排序，然后进行评估，如图3所示。

具体地，首先假设存在一个蛋白质序列P，且存在一组基于排序策略的蛋白质同源性检测的基方法R₁,R₂,R₃,…,R_n，其中，R₁表示第一个基排序方法，R₂表示第一个基排序方法，…，R_n表示第n个基排序，n为正整数。这里的基排序方法可以是已知的基于排序策略的蛋白质同源性检测方法中的任意种。

将蛋白质序列P作为查询序列输入到基排序方法R_i(1≤i≤n)中，并在数据库中检索。将检索结果按照同源性降序排序，同源性高的排在前面，其过程可以简单地表示为图4所示。其中，P₁,P₂,P₃,…,P_k是采用基排序方法R_i在数据库检索到的同源蛋白质列表(即共m个同源蛋白质，m为正整数)，v₁,v₂,v₃,…,v_k是相应的同源相似性评分。列表按照同源相似性评分降序排序。P₁是与P同源性最高的蛋白质，P₂次之。以此类推，当将蛋白质序列P作为查询序列输入到每个基排序方法，可以得到n个L₁,L₂,L₃,…,L_n排序列表，如图5所示。每一个基排序方法检索出来的同源蛋白质列表都有相应的同源相似性评分，把得到的同源性评分作为Learning to Rank的一个特征，组合成一个特征向量，结果如图6所示。其中，P₁,P₂,P₃,…,P_m是所有基排序检索结果列表的并集(指n个排序列表中去除重复者后的合集，共m个)。v_ij是每个基排序检索结果的同源相似性评分，当v_ij不存在时，设为默认值，即同源相似性最小值。

然后，根据SCOP(Structural Classification of Protein，蛋白质结构分类)数据库的黄金标准，对组合的特征向量标记相关度。相关度共有两个等级，查询蛋白质(即P)与检索结果属于同一超家族标记相关度为1，不属于同一超家族标记相关度为0。

本实施例采用列表级(即Listwise)策略，将融合的特征向量输入到排序学习方法中以进行排序模型的训练。仍如图1所示，在训练过程中，得到排序函数F(x)，然后在检测过程中，对于测试集中的查询q，使用训练好的F(x)函数对特征向量排序，得到新的排序。

排序学习是一个有监督的任务。假设X是由特征向量组成的输入空间(特征空间)，Y是由相关度级别组成输出空间。令x∈X、y∈Y，P(X,Y)是未知的联合概率分布。假设F(·)是一个映射函数，将特征向量x映射到相关度y。

排序学习任务的目的是：给定训练数据(x₁,y₁),(x₂,y₂),…,(x_m,y_m)自动的学习排序函数每一个实例都是由特征向量x_i及对应的相关度y_i组成，i＝1,…,m，m是训练实例的数量。

F(x)和y可以进一步写成F(x)＝(f(x₁),f(x₂),…,f(x_n))和y＝(y₁,y₂,…,y_n)。f(x₁),f(x₂),…,f(x_n)表示将要被排序的特征向量，f(x)是局部排序函数，n是特征向量的数量。

L(·,·)是损失函数，用来评价F(·)的精度。首先特征向量x基于F(x)排序，然后根据对应的相关度y，对前n个排序结果评价。如果相关度高的向量排在前面，则损失就会变小，否则损失就会变大。损失函数可以写成L(F(x),y)。

进一步地定义风险函数R(·)，表示在联合分布P(X,Y)下损失函数L(·,·)的期望：

R (F) = \underset{X \times Y}{&Integral;} L (F (x), y) dP (x, y)

排序学习的任务就变成最小化经验风险函数。当给定训练数据，可以通过如下公式计算经验风险：

\hat{R} (F) = \frac{1}{m} Σ_{i = 1}^{m} L (F (x_{i}), y_{i})

在排序学习中，给定一个查询，对与之相关的特征向量x排序，y表示查询与特征向量x的相关度。通常真正的损失函数定义为NDCG(NormalizedDiscounted Cumulative Gain，归一化折扣累积增益)损失：

L(F(x),y)＝1.0-NDCG

NDCG = Z_{n} Σ_{j = 1}^{n} (2^{r (j)} - 1) / \log (1 + j)

一种优选的实施例中采用LambdaMART排序学习方法，即采用如下公式

λ_{j} = \frac{&PartialD; L}{{&PartialD; s}_{j}} = G_{\max}^{- 1} \underset{i}{Σ} (\frac{1}{1 + \exp (s_{i} - s_{j})}) (g_{i} - g_{j}) (D_{i} - D_{j})

其中g_i、D_i和s_i分别表示增益、折扣和第i个序列的相关度。表示NDCG的归一化因子。LambdaMART排序学习方法的描述如图7所示，是已知的一种组合优化算法，其中S是根据图6的排序列表转换得到的集合，P_i是概率，例如如果P_i>0.5则表示x_i排在y_i之前比较好，否则y_i排在x_i前比较好，具体实现可参考已知的LambdaMART排序学习方法，在此不作详述。

基于上述实施例，本发明还提供一种与上述方法实施例对应的蛋白质远程同源性检测装置，其包括训练模块和检测模块。其中，训练模块用于将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排序，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型；检测模块用于将目标蛋白质作为查询序列输入所述基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排列，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入训练好的排序模型进行排序，得到排序结果，根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。根据排序结果确定检测结果的过程参照现有的蛋白质远程同源性检测的已知过程实现，在此不作详述。

上述装置的各模块及其单元的具体实现可参考前述方法实施例，在此不作重述。

综上，本实施例的优点在于，将多个基排序方法的结果作为排序学习方法的特征，融合成一个新的排序模型，使得性能得到有效的提高，稳定性大大增加。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种蛋白质远程同源性检测方法，其特征在于，包括训练过程和检测过程；

所述训练过程包括：将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排序，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型；

所述检测过程包括：将目标蛋白质作为查询序列输入所述基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排列，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入训练好的排序模型进行排序，得到排序结果，根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。

2.如权利要求1所述的方法，其特征在于，所述基于排序学习的方法包括采用列表级排序学习方法。

3.如权利要求2所述的方法，其特征在于，在所述训练过程中，所述将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型这一步骤包括：

根据蛋白质结构分类数据库对特征向量进行相关度标记，得到训练集，所述训练集包括特征向量及其对应的相关度；

在所述训练集上建立损失函数作为最优化目标，通过最优化算法最小化损失函数，从而得到排序模型。

4.如权利要求3所述的方法，其特征在于，所述损失函数为归一化折扣累积增益损失。

5.如权利要求4所述的方法，其特征在于，

所述通过最优化算法最小化损失函数包括最小化计算公式其中，L(F(x_i),y_i)为损失函数，m为训练集的数量，F(x_i)为第i个特征向量，y_i为第i个特征向量对应的相关度。

6.一种蛋白质远程同源性检测装置，其特征在于，包括训练模块和检测模块；

所述训练模块用于将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排序，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型；

所述检测模块用于将目标蛋白质作为查询序列输入所述基排序方法，并在数据库中进行检索，每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分，将所有基排序的检索结果按照同源相似性评分降序排列，将所述检索结果中的同源相似性评分组合成特征向量，将得到的特征向量输入训练好的排序模型进行排序，得到排序结果，根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。

7.如权利要求6所述的装置，其特征在于，所述基于排序学习的方法包括采用列表级排序学习方法。

8.如权利要求7所述的装置，其特征在于，在所述训练模块中，所述将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型包括：

9.如权利要求8所述的装置，其特征在于，所述损失函数为归一化折扣累积增益损失。

10.如权利要求9所述的装置，其特征在于，