CN104899477A - 一种使用词袋模型的蛋白质亚细胞区间预测方法 - Google Patents
一种使用词袋模型的蛋白质亚细胞区间预测方法 Download PDFInfo
- Publication number
- CN104899477A CN104899477A CN201510341211.6A CN201510341211A CN104899477A CN 104899477 A CN104899477 A CN 104899477A CN 201510341211 A CN201510341211 A CN 201510341211A CN 104899477 A CN104899477 A CN 104899477A
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- protein
- subcellular
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 100
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 27
- 150000001413 amino acids Chemical class 0.000 claims abstract description 17
- 238000012706 support-vector machine Methods 0.000 claims abstract description 14
- 238000007621 cluster analysis Methods 0.000 claims abstract description 11
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 125000000539 amino acid group Chemical group 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 239000002773 nucleotide Substances 0.000 claims 1
- 125000003729 nucleotide group Chemical group 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000004960 subcellular localization Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000001640 apoptogenic effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 208000000747 high pressure neurological syndrome Diseases 0.000 description 2
- 108010016626 Dipeptides Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 108091005461 Nucleic proteins Chemical group 0.000 description 1
- 101710116435 Outer membrane protein Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。
Description
技术领域
本发明涉及生物学领域,具体涉及一种使用词袋模型的蛋白质亚细胞区间预测方法。
背景技术
人类对生命科学的研究因计算机技术的蓬勃发展发生了巨大变化,自从进入后基因组时代,人类获得了大规模的核酸和蛋白质序列数据,借助先进高效的计算机自动化数据处理技术从这些海量数据中挖掘有效信息成为必然趋势。国内外学者在以往的研究中,主要采用数学方法描述提取的蛋白质序列特征信息,用高维的特征向量表示蛋白质序列,然后设计使用高效的分类器进行预测分析。
目前,用于蛋白质序列特征提取的算法主要包括:氨基酸组成(AAC)、氨基酸的物化特性、二肽及多肽组成、伪氨基酸组成(PseAAC)以及不同特征的融合等。如Lin等的蛋白质亚细胞定位预测研究采用了四肽信息;杨会芳等在预测蛋白质亚细胞定位中采用了分段伪氨基酸的特征提取方法;Gao等通过寻找蛋白质不同结构与物化特性的最佳组合来区分外膜蛋白。同时,在预测算法的设计方面国内外研究者开展了大量工作,统计学和机器学习方法在已有的预测算法中得到了充分应用,如陈颖丽等在六类细胞凋亡蛋白的亚细胞定位研究中使用了离散增量结合支持向量机的方法;还有基于人工神经网络、马尔可夫模型和贝叶斯网络等的分类预测方法。
总结前人研究成果不难发现,单纯采用传统的蛋白质序列特征提取算法,如AAC等,进行特征提取并送入分类器进行定位预测的准确率偏低。
发明内容
为了解决现有技术中的不足,本发明提供了一种使用词袋模型的蛋白质亚细胞区间预测方法。
本发明的技术方案如下:
一种使用词袋模型的蛋白质亚细胞区间预测方法,包括以下步骤:
(1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;
(2)、对序列单词的特征值进行聚类分析,获得字典;
(3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
其进一步的技术方案为,所述步骤(1)中,截取序列单词的方法为滑动窗口分割法,所述滑动窗口分割法的具体步骤如下:
(1A)、选取滑动窗口:
L0=Min{L1,L2,Λ,Ln} (a)
式(a)中,L1,L2,Λ,Ln为蛋白质序列数据集里所有的蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度;
(1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。
其进一步的技术方案为,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组分信息,所述BOW_AAC算法的具体步骤如下:
设序列单词p为:
p=R1R2R3R4R5ΛRL (c)
式(c)中,Ri(i=1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基;
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T (d)
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。
其进一步的技术方案为,在所述步骤(2)中使用K-means算法进行聚类分析,所述K-means算法具体包括:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z (f)
按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d,k)值,使得词袋特征具有最高的识别精度;
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心;
(2C)、定义类内方差和为:
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和;
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中;
(2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚类中心;
(2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次数,此时得到的聚类中心的集合作为字典。
其进一步的技术方案为,所述步骤(3)具体包括:
(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数;
(3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征;
(3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
其进一步的技术方案为,所述步骤(3C)具体包括:
(3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集;
(3C2)、将训练样本(Ci,yi)送入支持向量机多类分类器;向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置;
(3C3)、将测试样本送入向量机多类分类器进行预测并统计预测结果;
(3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集的大小。
本发明的有益技术效果是:
人类对生命科学的研究不断深入,大规模的数据不断产生,从这些海量数据中高效、准确地提取出有效信息具有重大意义。其中从蛋白质序列中提取出能用数字描述的序列结构与功能特征是亚细胞定位预测研究的核心内容之一。
本发明所述的方法可以使用词袋模型完成序列信息的提取,并在两个凋亡蛋白数据集上实施应用,实验证明相对于现有技术,结合使用BOW模型与传统序列特征提取算法AAC完成蛋白质序列特征的提取,并使用支持向量机分类方法进行定位预测,能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。
附图说明
图1是词袋特征提取过程示意图。
具体实施方式
下面结合具体的实施例对本发明作进一步的说明。
以从SWISS-PROT数据库获得的包含317条凋亡蛋白质序列的数据集为例进行说明,运用词袋模型结合AAC算法提取蛋白质序列的词袋特征,并送入支持向量机多类分类器进行定位预测。图1是词袋特征提取过程的示意图,如图1所示,其具体步骤如下所述,在本发明所涉及的公式中,符号Λ代表数列中的省略项。
1、从原始数据库中获得数据集之后,首先使用滑动窗口法分割数据集里所有的蛋白质序列,产生若干个序列单词,其次提取所有序列单词的特征。具体的步骤如下:
首先采用滑动窗口分割法对蛋白质序列进行分割,本步骤对应图1所示的步骤(h),其具体步骤如下:
(1A)、选取滑动窗口,式(a)和式(b)是选取滑动窗口的方法:
L0=Min{L1,L2,Λ,Ln} (a)
式(a)中,L1,L2,Λ,Ln表示蛋白质序列数据集里所有蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口大小。
在本实施例中,运用计算机编程语言编程处理蛋白质数据集里的317条蛋白质序列,获得数据集里最短蛋白序列的长度L0,在L0/2与L0之间选取滑动窗口大小d=50。
(1B)、使得滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定值的数量,就截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。在本实施例中,固定滑动间隔为1。使得滑动窗口沿着317条蛋白质序列从N端到C端滑动分割,可以获得206990个序列单词。如第一条蛋白序列MNYLP…HPNSSPT…MQ经滑动分割后可以获得MNYLP…HPNS、NYLP…HPNSS、YLP…HPNSSP等序列单词。
其次运用BOW_AAC算法统计序列单词的氨基酸组分信息,即提取序列单词特征,本步骤对应图1所示的步骤(i),氨基酸组分信息为一个20维向量,图1中只是展示出部分特征值简单示意其过程。BOW_AAC算法是将词袋模型(Bag of Words Model,简称BOW模型)和现有技术中的AAC算法结合起来的一种统计方法,具体如下:
设序列单词p为:
p=R1R2R3R4R5ΛRL (c)
式(3)中,R1R2R3R4R5表示序列单词P中的第一到第五个氨基酸残基,以此类推,RL表示序列单词P的最后一个氨基酸残基,即:Ri(i=1,2,3,4,5,Λ,L)表示序列单词P的第i个氨基酸残基。
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T (d)
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率。蛋白质序列是由20种常见的氨基酸构成,在BOW_AAC算法的此步骤中逐一统计序列单词中这20种氨基酸出现的频率,频率由氨基酸出现的次数除以序列单词长度得到。式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的所有氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。经过统计计算之后,所有的序列单词都可以用一个20维的向量表示,即所有的序列单词都可以使用其组分信息表示。将所述组分信息作为蛋白质序列的序列单词特征值。
在本实施例中,使用计算机编程统计每一个序列单词p中20种氨基酸出现的频率,将所有的序列单词都表示成20维的向量,该20维的向量即为序列单词特征,如统计MNYLP…HPNS中20种氨基酸出现的频率得到的特征值为[0.08…0.10.0600.04]。206990个序列单词共有206990个序列单词特征值。
2、对序列单词特征进行聚类分析,获得字典,此步骤对应图1中的步骤(j)。聚类分析的具体步骤如下:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z (f)
按照式(f),从20开始的整数中逐一选取k值,并且结合步骤(1)得到的滑动窗口长度d值的大小,也就是序列单词长度的大小,可以找到一组(d,k)值,使得词袋特征具有最高的识别精度。在此步骤中,滑动窗口长度d和类别个数k的选取没有相互制约关系,但是两者不同的组合可以得到不同的词袋特征,不同的词袋特征具有不同的识别精度,通过大量实验即可找到两者的最佳组合。在本实施例中,类别个数k取到了50。
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心。在本实施例中,需要从206990个序列单词特征值组成的数据集合中任意选择50个序列单词特征值作为初始聚类中心。
(2C)、定义类内方差和为:
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和。
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中。
在本实施例中,计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将206990个特征值分配到以50个初始中心为代表的聚类类别中。
(2D)、根据步骤(2C)得到的结果对新产生的50个类别分别计算每个类别的均值,得到新的聚类中心。
(2E)、重复步骤(2C)和步骤(2D),直至达到终止条件,即聚类中心不再变化或者已达到最大迭代次数等,此时得到的聚类中心的集合作为字典。字典的大小即为聚类中心的个数的数值50。在本实施例中,最大迭代次数设置为10,则重复所述步骤(2C)和步骤(2D),直至达到最大迭代次数10。
3、统计每一条蛋白质序列属于各个聚类中心的序列单词个数,并计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,此步骤对应图1中的步骤(k),并将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。
(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数,可以获得蛋白质序列的序列单词直方图,使得结果更加直观。在本实施例中,经聚类分析后序列单词特征被映射到字典中的50个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数,如蛋白序列MNYLP…HPNSSPT…MQ属于50个聚类中心的序列单词个数为0,…,26,17,…,9。可以将统计结果以聚类中心的序号为横坐标,序列单词个数为纵坐标绘制出蛋白质序列的序列单词直方图。
(3B)、计算每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,即每一条蛋白质序列被表示成一个k维的向量。由于设置有50个聚类中心,每一条蛋白质序列都被表示成一个50维的向量。如蛋白序列MNYLP…HPNSSPT…MQ经分割后共有562个序列单词,其词袋特征为[0…0.046263,0.030249,…,0.003559,0.016014]。
(3C)、每一条蛋白质序列被表示成一个k维的向量。每次仅从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集,测试次数等于数据集的大小,将训练样本(Ci,yi)送入支持向量机多类分类器,向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置,最后送入测试样本进行预测并统计预测结果。
在本实施例中,317条蛋白质序列每次仅从数据集中选取一条蛋白质序列构成测试集,训练集由剩余的蛋白质序列构成,测试次数等于数据集的大小317,将训练样本(Ci,yi)送入支持向量机多类分类器,向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置,最后送入测试样本进行预测并统计预测结果。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
Claims (6)
1.一种使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,包括以下步骤:
(1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;
(2)、对序列单词的特征值进行聚类分析,获得字典;
(3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
2.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(1)中,截取序列单词的方法为滑动窗口分割法,所述滑动窗口分割法的具体步骤如下:
(1A)、选取滑动窗口:
L0=Min{L1,L2,Λ,Ln} (a)
式(a)中,L1,L2,Λ,Ln为蛋白质序列数据集里所有的蛋白质序列的长度,L0为数据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度;
(1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。
3.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组分信息,所述BOW_AAC算法的具体步骤如下:
设序列单词p为:
p=R1R2R3R4R5Λ RL (c)
式(c)中,Ri(i=1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基;
定义序列单词p的氨基酸组分信息P为:
P=[f1,f2,Λ,f20]T (d)
式(d)和式(e)中,fu(u=1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。
4.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,在所述步骤(2)中使用K-means算法进行聚类分析,所述K-means算法具体包括:
(2A)、选取类别个数k:
k=20+x,0≤x≤500,x∈Z (f)
按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d,k)值,使得词袋特征具有最高的识别精度;
(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心;
(2C)、定义类内方差和为:
式(g)中,Si(i=1,2,Λ,k)表示聚类中心位置是μi的第i个聚类类别,xj为属于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特征值与聚类中心的距离的平方的和;
根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中;
(2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚类中心;
(2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次数,此时得到的聚类中心的集合作为字典。
5.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3)具体包括:
(3A)、经聚类分析后序列单词特征被映射到字典中的各个聚类中心,统计每一条蛋白质序列属于各个聚类中心的序列单词个数;
(3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征;
(3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。
6.如权利要求5所述的使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,所述步骤(3C)具体包括:
(3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构成训练集;
(3C2)、将训练样本(Ci,yi)送入支持向量机多类分类器;向量Ci表示第i组训练样本的词袋特征值,yi表示该条蛋白质序列所对应的亚细胞位置;
(3C3)、将测试样本送入支持向量机多类分类器进行预测并统计预测结果;
(3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510341211.6A CN104899477B (zh) | 2015-06-18 | 2015-06-18 | 一种使用词袋模型的蛋白质亚细胞区间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510341211.6A CN104899477B (zh) | 2015-06-18 | 2015-06-18 | 一种使用词袋模型的蛋白质亚细胞区间预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899477A true CN104899477A (zh) | 2015-09-09 |
CN104899477B CN104899477B (zh) | 2018-01-26 |
Family
ID=54032139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510341211.6A Expired - Fee Related CN104899477B (zh) | 2015-06-18 | 2015-06-18 | 一种使用词袋模型的蛋白质亚细胞区间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899477B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147868A (zh) * | 2018-07-18 | 2019-01-04 | 深圳大学 | 蛋白质功能预测方法、装置、设备及存储介质 |
CN109273054A (zh) * | 2018-08-31 | 2019-01-25 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN112908418A (zh) * | 2021-02-02 | 2021-06-04 | 杭州电子科技大学 | 一种基于字典学习的氨基酸序列特征提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006003970A (ja) * | 2004-06-15 | 2006-01-05 | Otsuka Pharmaceut Co Ltd | Gタンパク共役型受容体判別装置、判別方法、判別プログラム及びそのプログラムを記録した記録媒体 |
CN102819693A (zh) * | 2012-08-17 | 2012-12-12 | 中国人民解放军第三军医大学第二附属医院 | 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法 |
CN104615911A (zh) * | 2015-01-12 | 2015-05-13 | 上海交通大学 | 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法 |
-
2015
- 2015-06-18 CN CN201510341211.6A patent/CN104899477B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006003970A (ja) * | 2004-06-15 | 2006-01-05 | Otsuka Pharmaceut Co Ltd | Gタンパク共役型受容体判別装置、判別方法、判別プログラム及びそのプログラムを記録した記録媒体 |
CN102819693A (zh) * | 2012-08-17 | 2012-12-12 | 中国人民解放军第三军医大学第二附属医院 | 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法 |
CN104615911A (zh) * | 2015-01-12 | 2015-05-13 | 上海交通大学 | 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法 |
Non-Patent Citations (2)
Title |
---|
JERRYLEAD: "K-means聚类算法", 《博客园,URL:HTTP://WWW.CNBLOGS.COM/JERRYLEAD/ARCHIVE/2011/04/06/2006910.HTML》 * |
刘昊: "基于模板核和扩展特征的蛋白质关系抽取", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147868A (zh) * | 2018-07-18 | 2019-01-04 | 深圳大学 | 蛋白质功能预测方法、装置、设备及存储介质 |
CN109273054A (zh) * | 2018-08-31 | 2019-01-25 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN109273054B (zh) * | 2018-08-31 | 2021-07-13 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN112908418A (zh) * | 2021-02-02 | 2021-06-04 | 杭州电子科技大学 | 一种基于字典学习的氨基酸序列特征提取方法 |
CN112908418B (zh) * | 2021-02-02 | 2024-06-28 | 杭州电子科技大学 | 一种基于字典学习的氨基酸序列特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104899477B (zh) | 2018-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100557626C (zh) | 基于免疫谱聚类的图像分割方法 | |
CN102930533B (zh) | 一种基于改进k-均值聚类的半监督高光谱影像降维方法 | |
CN103093235B (zh) | 一种基于改进距离核主成分分析的手写体数字识别方法 | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
CN103400154B (zh) | 一种基于有监督等距映射的人体动作识别方法 | |
CN101673398B (zh) | 基于免疫稀疏谱聚类的图像分割方法 | |
CN109508752A (zh) | 一种基于结构化锚图的快速自适应近邻聚类方法 | |
CN103955628A (zh) | 基于子空间融合的蛋白质-维他命绑定位点预测方法 | |
CN110517730A (zh) | 一种基于机器学习识别嗜热蛋白的方法 | |
CN104809475A (zh) | 基于增量线性判别分析的多类标场景分类方法 | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN102436645A (zh) | 基于mod字典学习采样的谱聚类图像分割方法 | |
CN104899477B (zh) | 一种使用词袋模型的蛋白质亚细胞区间预测方法 | |
CN102915448A (zh) | 一种基于AdaBoost的三维模型自动分类方法 | |
CN106777980A (zh) | 一种基于dtw的时间序列相似性预测方法 | |
CN104504391B (zh) | 一种基于稀疏特征和马尔科夫随机场的高光谱图像分类方法 | |
CN108846307A (zh) | 一种基于波形图像的微震与爆破事件识别方法 | |
CN105205349B (zh) | 马尔科夫毯嵌入式的基于封装的基因选择方法 | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
CN105160598B (zh) | 一种基于改进em算法的电网业务分类方法 | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
CN107103206B (zh) | 基于标准熵的局部敏感哈希的dna序列聚类 | |
CN103412945B (zh) | 一种基于类边界分布特性的音频分类器训练方法 | |
Zhang | Unsupervised learning algorithms in big data: an overview | |
CN105046106A (zh) | 一种用最近邻检索实现的蛋白质亚细胞定位预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180126 Termination date: 20210618 |