CN104636636A - 蛋白质远程同源性检测方法及装置 - Google Patents

蛋白质远程同源性检测方法及装置 Download PDF

Info

Publication number
CN104636636A
CN104636636A CN201510057034.9A CN201510057034A CN104636636A CN 104636636 A CN104636636 A CN 104636636A CN 201510057034 A CN201510057034 A CN 201510057034A CN 104636636 A CN104636636 A CN 104636636A
Authority
CN
China
Prior art keywords
protein
homology
proper vector
result
similarity score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510057034.9A
Other languages
English (en)
Other versions
CN104636636B (zh
Inventor
刘滨
陈俊杰
王晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201510057034.9A priority Critical patent/CN104636636B/zh
Publication of CN104636636A publication Critical patent/CN104636636A/zh
Application granted granted Critical
Publication of CN104636636B publication Critical patent/CN104636636B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。

Description

蛋白质远程同源性检测方法及装置
技术领域
本发明涉及生物信息学,具体涉及一种蛋白质远程同源性检测方法及装置。
背景技术
蛋白质远程同源性检测是蛋白质结构和功能研究中一个重要的问题,也是计算机辅助药物设计所依赖的关键技术。蛋白质远程同源性检测是指利用蛋白质序列间的相似性检测一个新的蛋白质的家族,之后利用已知蛋白质家族的结构和功能信息来预测新测定蛋白质的结构和功能。该领域中的计算方法利用蛋白质的序列信息、理化性质和进化信息提取特征,使用机器学习算法来预测蛋白质远程同源性,主要两种策略:分类策略和排序策略。分类策略的思想是把蛋白质远程同源性检测作为一个多分类问题,采用已知家族的蛋白质训练预测模型,之后该模型用于预测目标蛋白质的家族。该类方法可以较好的预测目标蛋白质的家族,但不能预测两个蛋白质之间的同源性,而且当模型中不包含目标蛋白质的家族信息时,该类方法无法正确预测。排序策略将目标蛋白质作为查询序列,计算其与数据库中已知蛋白质的相似性,将检索到的蛋白质按照同源相似性将序排列,与查询蛋白质具有较高同源相似性的蛋白质排在前面,较低同源相似性的蛋白质排在后面。排序方法可以预测两个蛋白质之间的同源性,但目前排序方法的准确率普遍较低,稳定性较差,不能取得理想的效果。因此我们提出一种融合多个蛋白质同源性检测的排序方法,通过组合不同的基排序方法来提高蛋白质远程同源性检测的效果。
发明内容
根据本发明的一个方面,提供一种蛋白质远程同源性检测方法,包括训练过程和检测过程;所述训练过程包括:将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排序,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型;所述检测过程包括:将目标蛋白质作为查询序列输入所述基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排列,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入训练好的排序模型进行排序,得到排序结果,根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。
根据本发明的另一个方面提供一种与上述方法对应的蛋白质远程同源性检测装置。
本发明的有益效果在于:通过将一组基于排序策略的蛋白质同源性检测的基排序方法的检测结果作为基于排序学习的方法的特征向量,由此融合成一个新的排序模型,从而可以有效提高蛋白质远程同源性检测的准确性和稳定性。
附图说明
图1为本发明一种实施例的蛋白质远程同源性检测方法的流程示意图;
图2为本发明一种实施例的蛋白质远程同源性检测方法的训练过程示意图;
图3为本发明一种实施例的蛋白质远程同源性检测方法的检测过程示意图;
图4为本发明一种实施例的蛋白质远程同源性检测方法中采用一个基排序方法检索的结果示意图;
图5为本发明一种实施例的蛋白质远程同源性检测方法中采用一组基排序方法检索的结果示意图;
图6为本发明一种实施例的蛋白质远程同源性检测方法中将检索结果组合成特征向量的示意图;
图7为LambdaMART排序学习方法的伪代码示意图。
具体实施方式
本发明的设计思想是基于排序学习(Learning to Rank)的方法来实现蛋白质远程同源性检测,通过组合不同排序方法来提高蛋白质远程同源性检测的精度,即首先将目标蛋白质作为查询序列,从多个基排序方法中检索出同源蛋白列表,并按同源相似性降序排列,同源性高的排在前面,然后将基排序检索结果中的同源性评分作为排序学习方法的特征,组合成特征向量,接着将特征向量输入到排序学习方法中。该方法融合了多个蛋白质远程同源性检测方法,可以有效提高排序结果的准确性和稳定性。
下面通过具体实施例结合附图对本发明作进一步详细说明。
实施例1:
如图1所示,为本实施例的蛋白质远程同源性检测方法,其包括训练过程和检测过程。
在训练过程中,对于训练集的每个查询q,首先对它的每个相关序列d进行标注,记为y,也就是进行排序,再对排序y建立特征向量x,然后对x进行学习,得到排序函数f(x),如图2所示。在检测过程中,对于测试集中的查询q,首先对它的每个相关序列d进行标注,记为y,再对排序y建立特征向量x,使用f(x)函数对特征向量排序,得到新的排序,然后进行评估,如图3所示。
具体地,首先假设存在一个蛋白质序列P,且存在一组基于排序策略的蛋白质同源性检测的基方法R1,R2,R3,…,Rn,其中,R1表示第一个基排序方法,R2表示第一个基排序方法,…,Rn表示第n个基排序,n为正整数。这里的基排序方法可以是已知的基于排序策略的蛋白质同源性检测方法中的任意种。
将蛋白质序列P作为查询序列输入到基排序方法Ri(1≤i≤n)中,并在数据库中检索。将检索结果按照同源性降序排序,同源性高的排在前面,其过程可以简单地表示为图4所示。其中,P1,P2,P3,…,Pk是采用基排序方法Ri在数据库检索到的同源蛋白质列表(即共m个同源蛋白质,m为正整数),v1,v2,v3,…,vk是相应的同源相似性评分。列表按照同源相似性评分降序排序。P1是与P同源性最高的蛋白质,P2次之。以此类推,当将蛋白质序列P作为查询序列输入到每个基排序方法,可以得到n个L1,L2,L3,…,Ln排序列表,如图5所示。每一个基排序方法检索出来的同源蛋白质列表都有相应的同源相似性评分,把得到的同源性评分作为Learning to Rank的一个特征,组合成一个特征向量,结果如图6所示。其中,P1,P2,P3,…,Pm是所有基排序检索结果列表的并集(指n个排序列表中去除重复者后的合集,共m个)。vij是每个基排序检索结果的同源相似性评分,当vij不存在时,设为默认值,即同源相似性最小值。
然后,根据SCOP(Structural Classification of Protein,蛋白质结构分类)数据库的黄金标准,对组合的特征向量标记相关度。相关度共有两个等级,查询蛋白质(即P)与检索结果属于同一超家族标记相关度为1,不属于同一超家族标记相关度为0。
本实施例采用列表级(即Listwise)策略,将融合的特征向量输入到排序学习方法中以进行排序模型的训练。仍如图1所示,在训练过程中,得到排序函数F(x),然后在检测过程中,对于测试集中的查询q,使用训练好的F(x)函数对特征向量排序,得到新的排序。
排序学习是一个有监督的任务。假设X是由特征向量组成的输入空间(特征空间),Y是由相关度级别组成输出空间。令x∈X、y∈Y,P(X,Y)是未知的联合概率分布。假设F(·)是一个映射函数,将特征向量x映射到相关度y。
排序学习任务的目的是:给定训练数据(x1,y1),(x2,y2),…,(xm,ym)自动的学习排序函数每一个实例都是由特征向量xi及对应的相关度yi组成,i=1,…,m,m是训练实例的数量。
F(x)和y可以进一步写成F(x)=(f(x1),f(x2),…,f(xn))和y=(y1,y2,…,yn)。f(x1),f(x2),…,f(xn)表示将要被排序的特征向量,f(x)是局部排序函数,n是特征向量的数量。
L(·,·)是损失函数,用来评价F(·)的精度。首先特征向量x基于F(x)排序,然后根据对应的相关度y,对前n个排序结果评价。如果相关度高的向量排在前面,则损失就会变小,否则损失就会变大。损失函数可以写成L(F(x),y)。
进一步地定义风险函数R(·),表示在联合分布P(X,Y)下损失函数L(·,·)的期望:
R ( F ) = ∫ X × Y L ( F ( x ) , y ) dP ( x , y )
排序学习的任务就变成最小化经验风险函数。当给定训练数据,可以通过如下公式计算经验风险:
R ^ ( F ) = 1 m Σ i = 1 m L ( F ( x i ) , y i )
在排序学习中,给定一个查询,对与之相关的特征向量x排序,y表示查询与特征向量x的相关度。通常真正的损失函数定义为NDCG(NormalizedDiscounted Cumulative Gain,归一化折扣累积增益)损失:
L(F(x),y)=1.0-NDCG
NDCG = Z n Σ j = 1 n ( 2 r ( j ) - 1 ) / log ( 1 + j )
一种优选的实施例中采用LambdaMART排序学习方法,即采用如下公式
λ j = ∂ L ∂ s j = G max - 1 Σ i ( 1 1 + exp ( s i - s j ) ) ( g i - g j ) ( D i - D j )
其中gi、Di和si分别表示增益、折扣和第i个序列的相关度。表示NDCG的归一化因子。LambdaMART排序学习方法的描述如图7所示,是已知的一种组合优化算法,其中S是根据图6的排序列表转换得到的集合,Pi是概率,例如如果Pi>0.5则表示xi排在yi之前比较好,否则yi排在xi前比较好,具体实现可参考已知的LambdaMART排序学习方法,在此不作详述。
基于上述实施例,本发明还提供一种与上述方法实施例对应的蛋白质远程同源性检测装置,其包括训练模块和检测模块。其中,训练模块用于将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排序,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型;检测模块用于将目标蛋白质作为查询序列输入所述基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排列,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入训练好的排序模型进行排序,得到排序结果,根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。根据排序结果确定检测结果的过程参照现有的蛋白质远程同源性检测的已知过程实现,在此不作详述。
上述装置的各模块及其单元的具体实现可参考前述方法实施例,在此不作重述。
综上,本实施例的优点在于,将多个基排序方法的结果作为排序学习方法的特征,融合成一个新的排序模型,使得性能得到有效的提高,稳定性大大增加。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种蛋白质远程同源性检测方法,其特征在于,包括训练过程和检测过程;
所述训练过程包括:将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排序,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型;
所述检测过程包括:将目标蛋白质作为查询序列输入所述基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排列,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入训练好的排序模型进行排序,得到排序结果,根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。
2.如权利要求1所述的方法,其特征在于,所述基于排序学习的方法包括采用列表级排序学习方法。
3.如权利要求2所述的方法,其特征在于,在所述训练过程中,所述将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型这一步骤包括:
根据蛋白质结构分类数据库对特征向量进行相关度标记,得到训练集,所述训练集包括特征向量及其对应的相关度;
在所述训练集上建立损失函数作为最优化目标,通过最优化算法最小化损失函数,从而得到排序模型。
4.如权利要求3所述的方法,其特征在于,所述损失函数为归一化折扣累积增益损失。
5.如权利要求4所述的方法,其特征在于,
所述通过最优化算法最小化损失函数包括最小化计算公式其中,L(F(xi),yi)为损失函数,m为训练集的数量,F(xi)为第i个特征向量,yi为第i个特征向量对应的相关度。
6.一种蛋白质远程同源性检测装置,其特征在于,包括训练模块和检测模块;
所述训练模块用于将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排序,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型;
所述检测模块用于将目标蛋白质作为查询序列输入所述基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排列,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入训练好的排序模型进行排序,得到排序结果,根据所述排序结果确定所述目标蛋白质的远程同源性检测结果。
7.如权利要求6所述的装置,其特征在于,所述基于排序学习的方法包括采用列表级排序学习方法。
8.如权利要求7所述的装置,其特征在于,在所述训练模块中,所述将得到的特征向量输入基于排序学习的方法中进行训练以得到排序模型包括:
根据蛋白质结构分类数据库对特征向量进行相关度标记,得到训练集,所述训练集包括特征向量及其对应的相关度;
在所述训练集上建立损失函数作为最优化目标,通过最优化算法最小化损失函数,从而得到排序模型。
9.如权利要求8所述的装置,其特征在于,所述损失函数为归一化折扣累积增益损失。
10.如权利要求9所述的装置,其特征在于,
所述通过最优化算法最小化损失函数包括最小化计算公式其中,L(F(xi),yi)为损失函数,m为训练集的数量,F(xi)为第i个特征向量,yi为第i个特征向量对应的相关度。
CN201510057034.9A 2015-02-02 2015-02-02 蛋白质远程同源性检测方法及装置 Expired - Fee Related CN104636636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510057034.9A CN104636636B (zh) 2015-02-02 2015-02-02 蛋白质远程同源性检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510057034.9A CN104636636B (zh) 2015-02-02 2015-02-02 蛋白质远程同源性检测方法及装置

Publications (2)

Publication Number Publication Date
CN104636636A true CN104636636A (zh) 2015-05-20
CN104636636B CN104636636B (zh) 2018-01-05

Family

ID=53215377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510057034.9A Expired - Fee Related CN104636636B (zh) 2015-02-02 2015-02-02 蛋白质远程同源性检测方法及装置

Country Status (1)

Country Link
CN (1) CN104636636B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599403A (zh) * 2020-05-22 2020-08-28 电子科技大学 一种基于排序学习的并行式药物-靶标相关性预测方法
CN116206675A (zh) * 2022-09-05 2023-06-02 北京分子之心科技有限公司 用于预测蛋白质复合物结构的方法、设备、介质及程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287641A (zh) * 1998-10-30 2001-03-14 国际商业机器公司 在序列同源性检测中完成模式词典组成的方法和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287641A (zh) * 1998-10-30 2001-03-14 国际商业机器公司 在序列同源性检测中完成模式词典组成的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN LIU ET.AL: "Combining evolutionary information extracted from frequency profiles with sequence-based kernels for protein remote homology detection", 《BIOINFORMATICS》 *
BIN LIU ET.AL: "Using distances between Top-n-gram and residue pairs for protein remote homology detection", 《THE TWELFTH ASIA PACIFIC BIOINFORMATICS CONFERENCE》 *
程凡: "基于排序学习的信息检索模型研究", 《中国博士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599403A (zh) * 2020-05-22 2020-08-28 电子科技大学 一种基于排序学习的并行式药物-靶标相关性预测方法
CN111599403B (zh) * 2020-05-22 2023-03-14 电子科技大学 一种基于排序学习的并行式药物-靶标相关性预测方法
CN116206675A (zh) * 2022-09-05 2023-06-02 北京分子之心科技有限公司 用于预测蛋白质复合物结构的方法、设备、介质及程序产品
CN116206675B (zh) * 2022-09-05 2023-09-15 北京分子之心科技有限公司 用于预测蛋白质复合物结构的方法、设备、介质及程序产品

Also Published As

Publication number Publication date
CN104636636B (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN105069470A (zh) 分类模型训练方法及装置
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN104881689A (zh) 一种多标签主动学习分类方法及系统
CN107391921B (zh) 一种科学文献中参考文献影响力评估方法
CN109408743A (zh) 文本链接嵌入方法
Kim et al. A polythetic clustering process and cluster validity indexes for histogram-valued objects
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN104835073A (zh) 基于直觉模糊熵权的无人飞行器控制系统运行绩效评价方法
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN115510500A (zh) 一种文本内容的敏感分析方法及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN108509588B (zh) 一种基于大数据的律师评估方法及推荐方法
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN110808947B (zh) 一种自动化的脆弱性量化评估方法及系统
CN115146081B (zh) 生产设备的故障诊断知识图谱的构建方法及诊断方法
CN103279549A (zh) 一种目标对象的目标数据的获取方法及装置
Wang et al. Feature selection methods in the framework of mrmr
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
CN109063944A (zh) 基于大数据分析技术的城市金融指数分析方法及装置
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180105

Termination date: 20190202

CF01 Termination of patent right due to non-payment of annual fee