CN105653885B - 基于多实例多类标的马尔可夫链注释蛋白质功能的方法 - Google Patents

基于多实例多类标的马尔可夫链注释蛋白质功能的方法 Download PDF

Info

Publication number
CN105653885B
CN105653885B CN201610173526.9A CN201610173526A CN105653885B CN 105653885 B CN105653885 B CN 105653885B CN 201610173526 A CN201610173526 A CN 201610173526A CN 105653885 B CN105653885 B CN 105653885B
Authority
CN
China
Prior art keywords
protein
function
annotation
category
distribution matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610173526.9A
Other languages
English (en)
Other versions
CN105653885A (zh
Inventor
吴庆耀
谭明奎
陈健
韩超
宋恒杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610173526.9A priority Critical patent/CN105653885B/zh
Publication of CN105653885A publication Critical patent/CN105653885A/zh
Application granted granted Critical
Publication of CN105653885B publication Critical patent/CN105653885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多实例多类标的马尔可夫链注释蛋白质功能的方法,所述方法包括:从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。

Description

基于多实例多类标的马尔可夫链注释蛋白质功能的方法
技术领域
本发明涉及蛋白质组学技术领域,具体涉及基于多实例多类标的马尔可夫链注释蛋白质功能的方法。
背景技术
随着人类基因组计划的完成,生命科学研究进入了后基因组时代,即工作重点从揭示生命的所有遗传信息转移到遗传信息的功能研究。基因是遗传信息的载体,而基因的表达产物--蛋白质执行各种各样的生物功能。蛋白质的功能注释是在分子水平上阐明生命本质,对病理机制研究、临床诊断、潜在药物靶标识别以及新医药开发等具有重要作用。随着高通量测序技术的发展,各种各样的数据库已经存储了海量的蛋白质序列信息,但仅有很少一部分具有功能注释。如UniProt全信息蛋白质数据库中完成蛋白质功能注释的不足1%,因此,仅通过人工对蛋白质功能进行注释是不可能的。使用计算的方法来注释蛋白质功能已经成为后基因组时代的重要研究课题之一。
目前已经有大量的计算方法用于注释蛋白质的功能,如基于蛋白质序列信息、结构信息、网络信息或集成的方法。结构域是蛋白质中的一类结构单元,可以一个独立完成或几个共同完成一项生理功能。通常,几个结构域共同组成一个具有多种功能的蛋白质。这和多实例多类标学习框架的结构类似,为使用计算的方法来注释蛋白质功能提供了一种新的可能。
发明内容
本发明的目的是提供一种基于多实例多类标学习框架的注释蛋白质功能的方法,本发明的目的可以通过采取如下方案实现。
基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其包括如下步骤:
S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;
S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;
S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。
作为一种具体的实施方案,步骤S1中,所述的蛋白质,具体为蛋白质和其结构域分别被视为多实例多类标学习框架中的对象和实例,蛋白质的功能被视为多实例多类标学习框架中的类标。
作为一种具体的实施方案,步骤S2中,所述的计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,具体计算方法如下:
S21、分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离;
S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值。
作为一种具体的实施方案,步骤S3中,所述的马尔可夫链模型,具体如下式:
D=(1-α)Pfs(D)+αQ
其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布矩阵,α是初始类标信息的比例参数,fs是类标概率分布矩阵的稀释函数。
与现有技术相比,本发明具有如下优点和技术效果:
本发明利用蛋白质中结构域的特征信息度量蛋白质之间的相似性,基于相似的蛋白质可能具有相同的功能的假想,使用已经注释功能的蛋白质数据学习马尔可夫链模型,该模型可以用来注释未知功能的蛋白质。
附图说明
图1为本发明实施例1的一种基于多实例多类标的马尔可夫链注释蛋白质功能方法的流程图。
图2为本发明实施例1的使用已经注释功能的蛋白质数据学习马尔可夫链模型的流程图。
具体设施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
如图1所示,本实施例1的一种基于多实例多类标的马尔科夫链注释蛋白质功能的方法,包括以下步骤:
S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;
S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;
S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。
所述的蛋白质,具体为蛋白质和其结构域分别被视为多实例多类标学习框架中的对象和实例,蛋白质的功能被视为多实例多类标学习框架中的类标。
所述的计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,具体计算方法如下:
S21、分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离,三种距离的具体定义如下:
a、最大Hausdorff距离
b、最小Hausdorff距离
c、平均Hausdorff距离
其中,Xi是数据集中第i个蛋白质,x(i)是蛋白质的第i个结构域,|﹒|表示蛋白质中结构域的个数,mindis(x(j),Xi)的定义如下:
其中,||﹒||表示两个结构域之间的欧式距离。
S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值,均值的计算公式具体如下:
所述的使用距离的倒数作为蛋白质之间的相似性度量,具体公式如下:
如图2所示,本实施例1的一种基于多实例多类标的马尔科夫链注释蛋白质功能的方法,所述的使用已经注释功能的蛋白质数据学习马尔可夫链模型,具体的学习步骤如下:
S31、十折交叉验证
将已经注释功能的蛋白质数据集平均分成十份,依次将每份作为测试集,其余作为训练集,测试当前参数设置下模型的性能。
S32、初始化
1)类标概率转移矩阵
将已经注释功能的蛋白质数据集中蛋白质之间的Hausdorff相似性矩阵P列归一化。
2)类标概率分布矩阵
其中,Dtrain和Dtest分别是蛋白质的训练数据集和测试数据集,Ci表示第i个蛋白质的功能集,L表示蛋白质的功能集,Lj表示第j个功能。
3)已知的类标分布矩阵
将已知的类标分布矩阵Q行归一化。
S33、稀释类标概率分布矩阵
将类标概率分布矩阵D行归一化,使用稀释函数fs稀释类标概率分布矩阵,具体公式如下:
其中,Rank(Dij)是蛋白质i具有功能j的概率,m是稀释参数,表示蛋白质属于功能的概率的可信个数。
S34、学习马尔可夫链模型
D=(1-α)Pfs(D)+αQ
其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布矩阵,α是初始类标信息的比例参数,fs是类标概率分布矩阵的稀释函数。
S35、学习终止条件
如果||Dt-Dt-1||<∈,学习终止,保存参数α、m和∈;否则t=t+1,回到步骤S33。其中t是计算的第t个类别概率分布矩阵,初始值为0,∈是两个矩阵的偏差。
S36、模型性能测试
根据最终计算的类标概率分布矩阵注释测试集中蛋白质的功能,并和实际的注释功能做对比,使用多类标评估函数度量当前参数设置下模型的性能。
S37、选择最优模型
使用参数α、m和∈的不同值计算蛋白质的类标概率分布矩阵,选择模型性能最优时的参数设置作为最终的注释蛋白质功能的模型参数值。
综上所述,本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (2)

1.基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其特征在于:包括以下步骤:
S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;
S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;具体包括:
S21分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离,三种距离的具体定义如下:
a、最大Hausdorff距离
b、最小Hausdorff距离
c、平均Hausdorff距离
其中,Xi是数据集中第i个蛋白质,x(i)是蛋白质的第i个结构域,|·|表示蛋白质中结构域的个数,mindis(x(j),Xi)的定义如下:
其中,||·||表示两个结构域之间的欧式距离;
S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值,均值的计算公式具体如下:
所述的使用距离的倒数作为蛋白质之间的相似性度量,具体公式如下:
S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,具体的学习步骤如下:
S31、十折交叉验证
将已经注释功能的蛋白质数据集平均分成十份,依次将每份作为测试集,其余作为训练集,测试当前参数设置下模型的性能;
S32、初始化
1)类标概率转移矩阵
将已经注释功能的蛋白质数据集中蛋白质之间的Hausdorff相似性矩阵P列归一化;
2)类标概率分布矩阵
其中,Dtrain和Dtest分别是蛋白质的训练数据集和测试数据集,Ci表示第i个蛋白质的功能集,L表示蛋白质的功能集,Lj表示第j个功能;
3)已知的类标分布矩阵
将已知的类标分布矩阵Q行归一化;
S33、稀释类标概率分布矩阵
将类标概率分布矩阵D行归一化,使用稀释函数fs稀释类标概率分布矩阵,具体公式如下:
其中,Rank(Dij)是蛋白质i具有功能j的概率,m是稀释参数,表示蛋白质属于功能的概率的可信个数;
S34、学习马尔可夫链模型
D=(1-α)Pfs(D)+αQ
其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布矩阵,α是初始类标信息的比例参数fs(D)是类标概率分布矩阵的稀释函数;
S35、学习终止条件
如果||Dt-Dt-1||<∈,学习终止,保存参数α、m和∈;否则t=t+1,回到步骤S33;其中t是计算的第t个类别概率分布矩阵,初始值为0,∈是两个矩阵的偏差;
S36、模型性能测试
根据最终计算的类标概率分布矩阵注释测试集中蛋白质的功能,并和实际的注释功能做对比,使用多类标评估函数度量当前参数设置下模型的性能;
S37、选择最优模型
使用参数α、m和∈的不同值计算蛋白质的类标概率分布矩阵,选择模型性能最优时的参数设置作为最终的注释蛋白质功能的模型参数值。
2.根据权利要求1所述的基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其特征在于:步骤S1所述的蛋白质被视为对象,蛋白质的结构域被视为实例,蛋白质的功能被视为类标。
CN201610173526.9A 2016-03-23 2016-03-23 基于多实例多类标的马尔可夫链注释蛋白质功能的方法 Active CN105653885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610173526.9A CN105653885B (zh) 2016-03-23 2016-03-23 基于多实例多类标的马尔可夫链注释蛋白质功能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610173526.9A CN105653885B (zh) 2016-03-23 2016-03-23 基于多实例多类标的马尔可夫链注释蛋白质功能的方法

Publications (2)

Publication Number Publication Date
CN105653885A CN105653885A (zh) 2016-06-08
CN105653885B true CN105653885B (zh) 2019-05-14

Family

ID=56494594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610173526.9A Active CN105653885B (zh) 2016-03-23 2016-03-23 基于多实例多类标的马尔可夫链注释蛋白质功能的方法

Country Status (1)

Country Link
CN (1) CN105653885B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389190B (zh) * 2018-02-08 2022-12-16 贵州联科卫信科技有限公司 一种基于深度学习方法的肺结节自动检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
CN103473416B (zh) * 2013-09-13 2016-06-29 中国人民解放军国防科学技术大学 蛋白质相互作用的模型建立方法和装置
CN103559426A (zh) * 2013-11-06 2014-02-05 北京工业大学 一种针对多视图数据融合的蛋白质功能模块挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sparse Markov chain-based semi-supervised multi-instance multi-label method for protein function prediction;Chao Han;《Journal of Bioinformatics and Computational Biology》;20151031;第1-20页

Also Published As

Publication number Publication date
CN105653885A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
Parraga-Alava et al. RoCoLe: A robusta coffee leaf images dataset for evaluation of machine learning based methods in plant diseases recognition
Kurtek et al. Statistical modeling of curves using shapes and related features
CN104281845B (zh) 基于旋转不变字典学习模型的人脸识别方法
CN109670179A (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN107680600A (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN103646109B (zh) 一种基于机器学习的空间数据匹配方法
CN109344759A (zh) 一种基于角度损失神经网络的亲属识别方法
Ye et al. Glioma grading based on 3D multimodal convolutional neural network and privileged learning
CN104102922B (zh) 一种基于上下文感知字典学习的害虫图像分类方法
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN109935337A (zh) 一种基于相似性度量的病案查找方法及系统
Gattone et al. A shape distance based on the Fisher–Rao metric and its application for shapes clustering
Wang et al. Aa-trans: Core attention aggregating transformer with information entropy selector for fine-grained visual classification
Diao et al. Navigation line extraction algorithm for corn spraying robot based on improved YOLOv8s network
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
Liu et al. Joint graph learning and matching for semantic feature correspondence
CN107748837A (zh) 一种包含基因突变的dna鉴定亲权指数的计算方法
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
Xu et al. Academic coupled dictionary learning for sketch-based image retrieval
CN105653885B (zh) 基于多实例多类标的马尔可夫链注释蛋白质功能的方法
CN110400605A (zh) 一种gpcr药物靶标的配体生物活性预测方法及其应用
Sümer et al. Few-shot meta-learning for recognizing facial phenotypes of genetic disorders
CN109614928A (zh) 基于有限训练数据的熊猫脸部识别方法
Wang et al. Diagnosis of soybean bacterial blight progress stage based on deep learning in the context of data-deficient
CN105718950B (zh) 一种基于结构约束的半监督多视角聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant