CN104899477A - 一种使用词袋模型的蛋白质亚细胞区间预测方法 - Google Patents

一种使用词袋模型的蛋白质亚细胞区间预测方法 Download PDF

Info

Publication number
CN104899477A
CN104899477A CN201510341211.6A CN201510341211A CN104899477A CN 104899477 A CN104899477 A CN 104899477A CN 201510341211 A CN201510341211 A CN 201510341211A CN 104899477 A CN104899477 A CN 104899477A
Authority
CN
China
Prior art keywords
sequence
word
protein
subcellular
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510341211.6A
Other languages
English (en)
Other versions
CN104899477B (zh
Inventor
张梁
薛卫
赵南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Jiangnan University
Original Assignee
Nanjing Agricultural University
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University, Jiangnan University filed Critical Nanjing Agricultural University
Priority to CN201510341211.6A priority Critical patent/CN104899477B/zh
Publication of CN104899477A publication Critical patent/CN104899477A/zh
Application granted granted Critical
Publication of CN104899477B publication Critical patent/CN104899477B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

Description

一种使用词袋模型的蛋白质亚细胞区间预测方法
技术领域
本发明涉及生物学领域,具体涉及一种使用词袋模型的蛋白质亚细胞区间预测方法。
背景技术
人类对生命科学的研究因计算机技术的蓬勃发展发生了巨大变化,自从进入后基因组时代,人类获得了大规模的核酸和蛋白质序列数据,借助先进高效的计算机自动化数据处理技术从这些海量数据中挖掘有效信息成为必然趋势。国内外学者在以往的研究中,主要采用数学方法描述提取的蛋白质序列特征信息,用高维的特征向量表示蛋白质序列,然后设计使用高效的分类器进行预测分析。
目前,用于蛋白质序列特征提取的算法主要包括:氨基酸组成(AAC)、氨基酸的物化特性、二肽及多肽组成、伪氨基酸组成(PseAAC)以及不同特征的融合等。如Lin等的蛋白质亚细胞定位预测研究采用了四肽信息;杨会芳等在预测蛋白质亚细胞定位中采用了分段伪氨基酸的特征提取方法;Gao等通过寻找蛋白质不同结构与物化特性的最佳组合来区分外膜蛋白。同时,在预测算法的设计方面国内外研究者开展了大量工作,统计学和机器学习方法在已有的预测算法中得到了充分应用,如陈颖丽等在六类细胞凋亡蛋白的亚细胞定位研究中使用了离散增量结合支持向量机的方法;还有基于人工神经网络、马尔可夫模型和贝叶斯网络等的分类预测方法。
总结前人研究成果不难发现,单纯采用传统的蛋白质序列特征提取算法,如AAC等,进行特征提取并送入分类器进行定位预测的准确率偏低。
发明内容
为了解决现有技术中的不足,本发明提供了一种使用词袋模型的蛋白质亚细胞区间预测方法。
本发明的技术方案如下:
一种使用词袋模型的蛋白质亚细胞区间预测方法,包括以下步骤:
(1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;
(2)、对序列单词的特征值进行聚类分析,获得字典;
(3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
其进一步的技术方案为,所述步骤(1)中,截取序列单词的方法为滑动窗口分割法,所述滑动窗口分割法的具体步骤如下:
(1A)、选取滑动窗口:
L0=Min{L1,L2,Λ,Ln}         (a)
L 0 2 ≤ d ≤ L 0 ( d ∈ Z ) - - - ( b )
式(a)中,L1,L2,Λ,Ln为蛋白质序列数据集里所有的蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度;
(1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。
其进一步的技术方案为,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组分信息,所述BOW_AAC算法的具体步骤如下:
设序列单词p为:
p=R1R2R3R4R5ΛRL         (c)
式(c)中,Ri(i=1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基;
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T         (d)
f u = 1 N Σ i = 1 L R i , R i = 1 , If R i = A ( u ) 0 , If R i ≠ A ( u ) - - - ( e )
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。
其进一步的技术方案为,在所述步骤(2)中使用K-means算法进行聚类分析,所述K-means算法具体包括:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z         (f)
按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d,k)值,使得词袋特征具有最高的识别精度;
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心;
(2C)、定义类内方差和为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2 - - - ( g )
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和;
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中;
(2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚类中心;
(2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次数,此时得到的聚类中心的集合作为字典。
其进一步的技术方案为,所述步骤(3)具体包括:
(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数;
(3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征;
(3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
其进一步的技术方案为,所述步骤(3C)具体包括:
(3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集;
(3C2)、将训练样本(Ci,yi)送入支持向量机多类分类器;向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置;
(3C3)、将测试样本送入向量机多类分类器进行预测并统计预测结果;
(3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集的大小。
本发明的有益技术效果是:
人类对生命科学的研究不断深入,大规模的数据不断产生,从这些海量数据中高效、准确地提取出有效信息具有重大意义。其中从蛋白质序列中提取出能用数字描述的序列结构与功能特征是亚细胞定位预测研究的核心内容之一。
本发明所述的方法可以使用词袋模型完成序列信息的提取,并在两个凋亡蛋白数据集上实施应用,实验证明相对于现有技术,结合使用BOW模型与传统序列特征提取算法AAC完成蛋白质序列特征的提取,并使用支持向量机分类方法进行定位预测,能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。
附图说明
图1是词袋特征提取过程示意图。
具体实施方式
下面结合具体的实施例对本发明作进一步的说明。
以从SWISS-PROT数据库获得的包含317条凋亡蛋白质序列的数据集为例进行说明,运用词袋模型结合AAC算法提取蛋白质序列的词袋特征,并送入支持向量机多类分类器进行定位预测。图1是词袋特征提取过程的示意图,如图1所示,其具体步骤如下所述,在本发明所涉及的公式中,符号Λ代表数列中的省略项。
1、从原始数据库中获得数据集之后,首先使用滑动窗口法分割数据集里所有的蛋白质序列,产生若干个序列单词,其次提取所有序列单词的特征。具体的步骤如下:
首先采用滑动窗口分割法对蛋白质序列进行分割,本步骤对应图1所示的步骤(h),其具体步骤如下:
(1A)、选取滑动窗口,式(a)和式(b)是选取滑动窗口的方法:
L0=Min{L1,L2,Λ,Ln}         (a)
L 0 2 ≤ d ≤ L 0 ( d ∈ Z ) - - - ( b )
式(a)中,L1,L2,Λ,Ln表示蛋白质序列数据集里所有蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口大小。
在本实施例中,运用计算机编程语言编程处理蛋白质数据集里的317条蛋白质序列,获得数据集里最短蛋白序列的长度L0,在L0/2与L0之间选取滑动窗口大小d=50。
(1B)、使得滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定值的数量,就截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。在本实施例中,固定滑动间隔为1。使得滑动窗口沿着317条蛋白质序列从N端到C端滑动分割,可以获得206990个序列单词。如第一条蛋白序列MNYLP…HPNSSPT…MQ经滑动分割后可以获得MNYLP…HPNS、NYLP…HPNSS、YLP…HPNSSP等序列单词。
其次运用BOW_AAC算法统计序列单词的氨基酸组分信息,即提取序列单词特征,本步骤对应图1所示的步骤(i),氨基酸组分信息为一个20维向量,图1中只是展示出部分特征值简单示意其过程。BOW_AAC算法是将词袋模型(Bag of Words Model,简称BOW模型)和现有技术中的AAC算法结合起来的一种统计方法,具体如下:
设序列单词p为:
p=R1R2R3R4R5ΛRL         (c)
式(3)中,R1R2R3R4R5表示序列单词P中的第一到第五个氨基酸残基,以此类推,RL表示序列单词P的最后一个氨基酸残基,即:Ri(i=1,2,3,4,5,Λ,L)表示序列单词P的第i个氨基酸残基。
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T         (d)
f u = 1 N Σ i = 1 L R i , R i = 1 , If R i = A ( u ) 0 , If R i ≠ A ( u ) - - - ( e )
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率。蛋白质序列是由20种常见的氨基酸构成,在BOW_AAC算法的此步骤中逐一统计序列单词中这20种氨基酸出现的频率,频率由氨基酸出现的次数除以序列单词长度得到。式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的所有氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。经过统计计算之后,所有的序列单词都可以用一个20维的向量表示,即所有的序列单词都可以使用其组分信息表示。将所述组分信息作为蛋白质序列的序列单词特征值。
在本实施例中,使用计算机编程统计每一个序列单词p中20种氨基酸出现的频率,将所有的序列单词都表示成20维的向量,该20维的向量即为序列单词特征,如统计MNYLP…HPNS中20种氨基酸出现的频率得到的特征值为[0.08…0.10.0600.04]。206990个序列单词共有206990个序列单词特征值。
2、对序列单词特征进行聚类分析,获得字典,此步骤对应图1中的步骤(j)。聚类分析的具体步骤如下:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z         (f)
按照式(f),从20开始的整数中逐一选取k值,并且结合步骤(1)得到的滑动窗口长度d值的大小,也就是序列单词长度的大小,可以找到一组(d,k)值,使得词袋特征具有最高的识别精度。在此步骤中,滑动窗口长度d和类别个数k的选取没有相互制约关系,但是两者不同的组合可以得到不同的词袋特征,不同的词袋特征具有不同的识别精度,通过大量实验即可找到两者的最佳组合。在本实施例中,类别个数k取到了50。
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心。在本实施例中,需要从206990个序列单词特征值组成的数据集合中任意选择50个序列单词特征值作为初始聚类中心。
(2C)、定义类内方差和为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2 - - - ( g )
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和。
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中。
在本实施例中,计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将206990个特征值分配到以50个初始中心为代表的聚类类别中。
(2D)、根据步骤(2C)得到的结果对新产生的50个类别分别计算每个类别的均值,得到新的聚类中心。
(2E)、重复步骤(2C)和步骤(2D),直至达到终止条件,即聚类中心不再变化或者已达到最大迭代次数等,此时得到的聚类中心的集合作为字典。字典的大小即为聚类中心的个数的数值50。在本实施例中,最大迭代次数设置为10,则重复所述步骤(2C)和步骤(2D),直至达到最大迭代次数10。
3、统计每一条蛋白质序列属于各个聚类中心的序列单词个数,并计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,此步骤对应图1中的步骤(k),并将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。
(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数,可以获得蛋白质序列的序列单词直方图,使得结果更加直观。在本实施例中,经聚类分析后序列单词特征被映射到字典中的50个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数,如蛋白序列MNYLP…HPNSSPT…MQ属于50个聚类中心的序列单词个数为0,…,26,17,…,9。可以将统计结果以聚类中心的序号为横坐标,序列单词个数为纵坐标绘制出蛋白质序列的序列单词直方图。
(3B)、计算每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,即每一条蛋白质序列被表示成一个k维的向量。由于设置有50个聚类中心,每一条蛋白质序列都被表示成一个50维的向量。如蛋白序列MNYLP…HPNSSPT…MQ经分割后共有562个序列单词,其词袋特征为[0…0.046263,0.030249,…,0.003559,0.016014]。
(3C)、每一条蛋白质序列被表示成一个k维的向量。每次仅从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集,测试次数等于数据集的大小,将训练样本(Ci,yi)送入支持向量机多类分类器,向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置,最后送入测试样本进行预测并统计预测结果。
在本实施例中,317条蛋白质序列每次仅从数据集中选取一条蛋白质序列构成测试集,训练集由剩余的蛋白质序列构成,测试次数等于数据集的大小317,将训练样本(Ci,yi)送入支持向量机多类分类器,向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置,最后送入测试样本进行预测并统计预测结果。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (6)

1.一种使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,包括以下步骤:
(1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;
(2)、对序列单词的特征值进行聚类分析,获得字典;
(3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
2.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(1)中,截取序列单词的方法为滑动窗口分割法,所述滑动窗口分割法的具体步骤如下:
(1A)、选取滑动窗口:
L0=Min{L1,L2,Λ,Ln}    (a)
L 0 2 ≤ d ≤ L 0 ( d ∈ Z ) - - - ( b )
式(a)中,L1,L2,Λ,Ln为蛋白质序列数据集里所有的蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度;
(1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。
3.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组分信息,所述BOW_AAC算法的具体步骤如下:
设序列单词p为:
p=R1R2R3R4R5Λ RL    (c)
式(c)中,Ri(i=1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基;
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T    (d)
f u = 1 N Σ i = 1 L R i , R i = 1 , If R i = A ( u ) 0 , If R i ≠ A ( u ) - - - ( e )
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。
4.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(2)中使用K-means算法进行聚类分析,所述K-means算法具体包括:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z    (f)
按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d,k)值,使得词袋特征具有最高的识别精度;
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心;
(2C)、定义类内方差和为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2 - - - ( g )
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和;
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中;
(2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚类中心;
(2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次数,此时得到的聚类中心的集合作为字典。
5.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3)具体包括:
(3A)、经聚类分析后序列单词特征被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数;
(3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征;
(3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
6.如权利要求5所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3C)具体包括:
(3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集;
(3C2)、将训练样本(Ci,yi)送入支持向量机多类分类器;向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置;
(3C3)、将测试样本送入支持向量机多类分类器进行预测并统计预测结果;
(3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集的大小。
CN201510341211.6A 2015-06-18 2015-06-18 一种使用词袋模型的蛋白质亚细胞区间预测方法 Expired - Fee Related CN104899477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510341211.6A CN104899477B (zh) 2015-06-18 2015-06-18 一种使用词袋模型的蛋白质亚细胞区间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510341211.6A CN104899477B (zh) 2015-06-18 2015-06-18 一种使用词袋模型的蛋白质亚细胞区间预测方法

Publications (2)

Publication Number Publication Date
CN104899477A true CN104899477A (zh) 2015-09-09
CN104899477B CN104899477B (zh) 2018-01-26

Family

ID=54032139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510341211.6A Expired - Fee Related CN104899477B (zh) 2015-06-18 2015-06-18 一种使用词袋模型的蛋白质亚细胞区间预测方法

Country Status (1)

Country Link
CN (1) CN104899477B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147868A (zh) * 2018-07-18 2019-01-04 深圳大学 蛋白质功能预测方法、装置、设备及存储介质
CN109273054A (zh) * 2018-08-31 2019-01-25 南京农业大学 基于关系图谱的蛋白质亚细胞区间预测方法
CN112908418A (zh) * 2021-02-02 2021-06-04 杭州电子科技大学 一种基于字典学习的氨基酸序列特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003970A (ja) * 2004-06-15 2006-01-05 Otsuka Pharmaceut Co Ltd Gタンパク共役型受容体判別装置、判別方法、判別プログラム及びそのプログラムを記録した記録媒体
CN102819693A (zh) * 2012-08-17 2012-12-12 中国人民解放军第三军医大学第二附属医院 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法
CN104615911A (zh) * 2015-01-12 2015-05-13 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003970A (ja) * 2004-06-15 2006-01-05 Otsuka Pharmaceut Co Ltd Gタンパク共役型受容体判別装置、判別方法、判別プログラム及びそのプログラムを記録した記録媒体
CN102819693A (zh) * 2012-08-17 2012-12-12 中国人民解放军第三军医大学第二附属医院 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法
CN104615911A (zh) * 2015-01-12 2015-05-13 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JERRYLEAD: "K-means聚类算法", 《博客园,URL:HTTP://WWW.CNBLOGS.COM/JERRYLEAD/ARCHIVE/2011/04/06/2006910.HTML》 *
刘昊: "基于模板核和扩展特征的蛋白质关系抽取", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147868A (zh) * 2018-07-18 2019-01-04 深圳大学 蛋白质功能预测方法、装置、设备及存储介质
CN109273054A (zh) * 2018-08-31 2019-01-25 南京农业大学 基于关系图谱的蛋白质亚细胞区间预测方法
CN109273054B (zh) * 2018-08-31 2021-07-13 南京农业大学 基于关系图谱的蛋白质亚细胞区间预测方法
CN112908418A (zh) * 2021-02-02 2021-06-04 杭州电子科技大学 一种基于字典学习的氨基酸序列特征提取方法
CN112908418B (zh) * 2021-02-02 2024-06-28 杭州电子科技大学 一种基于字典学习的氨基酸序列特征提取方法

Also Published As

Publication number Publication date
CN104899477B (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN104408478B (zh) 一种基于分层稀疏判别特征学习的高光谱图像分类方法
CN102096819B (zh) 利用稀疏表示与字典学习进行图像分割的方法
CN109190626A (zh) 一种基于深度学习的多路径特征融合的语义分割方法
CN106257498A (zh) 基于异构纹理特征的锌浮选工况状态划分方法
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN103955629A (zh) 基于模糊k均值的宏基因组片段聚类方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN103955628A (zh) 基于子空间融合的蛋白质-维他命绑定位点预测方法
CN103617203B (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN104809475A (zh) 基于增量线性判别分析的多类标场景分类方法
CN104899477A (zh) 一种使用词袋模型的蛋白质亚细胞区间预测方法
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN103049760A (zh) 基于图像分块和位置加权的稀疏表示目标识别方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
CN103337248A (zh) 一种基于时间序列核聚类的机场噪声事件识别方法
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
CN105224962B (zh) 一种相似车牌提取方法及装置
CN106778897B (zh) 基于余弦距离和中心轮廓距离的两次植物物种识别方法
CN114359604A (zh) 一种基于多飞行器轨迹数据的队形识别模型构建方法
CN111753713B (zh) 基于稀疏表示和深度级联的心电信号身份识别方法和系统
CN105046106A (zh) 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
CN102332087A (zh) 一种基于稀疏表示的人脸识别方法
CN106557668A (zh) 基于lf熵的dna序列相似性检验方法
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180126

Termination date: 20210618

CF01 Termination of patent right due to non-payment of annual fee