CN104899477A

CN104899477A - 一种使用词袋模型的蛋白质亚细胞区间预测方法

Info

Publication number: CN104899477A
Application number: CN201510341211.6A
Authority: CN
Inventors: 张梁; 薛卫; 赵南
Original assignee: Nanjing Agricultural University; Jiangnan University
Current assignee: Nanjing Agricultural University; Jiangnan University
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2015-09-09
Anticipated expiration: 2035-06-18
Also published as: CN104899477B

Abstract

本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法，利用滑动窗口方法分割蛋白质序列，获得大量序列单词的集合，运用氨基酸组成获得序列单词特征，对序列单词特征进行聚类分析构建字典，并通过统计计算获得蛋白质序列的词袋特征，最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度，尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高，对准确预测未知蛋白的亚细胞位置具有重要作用。

Description

一种使用词袋模型的蛋白质亚细胞区间预测方法

技术领域

本发明涉及生物学领域，具体涉及一种使用词袋模型的蛋白质亚细胞区间预测方法。

背景技术

人类对生命科学的研究因计算机技术的蓬勃发展发生了巨大变化，自从进入后基因组时代，人类获得了大规模的核酸和蛋白质序列数据，借助先进高效的计算机自动化数据处理技术从这些海量数据中挖掘有效信息成为必然趋势。国内外学者在以往的研究中，主要采用数学方法描述提取的蛋白质序列特征信息，用高维的特征向量表示蛋白质序列，然后设计使用高效的分类器进行预测分析。

目前，用于蛋白质序列特征提取的算法主要包括：氨基酸组成(AAC)、氨基酸的物化特性、二肽及多肽组成、伪氨基酸组成(PseAAC)以及不同特征的融合等。如Lin等的蛋白质亚细胞定位预测研究采用了四肽信息；杨会芳等在预测蛋白质亚细胞定位中采用了分段伪氨基酸的特征提取方法；Gao等通过寻找蛋白质不同结构与物化特性的最佳组合来区分外膜蛋白。同时，在预测算法的设计方面国内外研究者开展了大量工作，统计学和机器学习方法在已有的预测算法中得到了充分应用，如陈颖丽等在六类细胞凋亡蛋白的亚细胞定位研究中使用了离散增量结合支持向量机的方法；还有基于人工神经网络、马尔可夫模型和贝叶斯网络等的分类预测方法。

总结前人研究成果不难发现，单纯采用传统的蛋白质序列特征提取算法，如AAC等，进行特征提取并送入分类器进行定位预测的准确率偏低。

发明内容

为了解决现有技术中的不足，本发明提供了一种使用词袋模型的蛋白质亚细胞区间预测方法。

本发明的技术方案如下：

一种使用词袋模型的蛋白质亚细胞区间预测方法，包括以下步骤：

(1)、分割蛋白质序列，截取序列单词；获得所述序列单词的组分信息，将所述组分信息作为序列单词的特征值；

(2)、对序列单词的特征值进行聚类分析，获得字典；

(3)、根据所述字典，获得蛋白质序列的词袋特征；将词袋特征送入支持向量机多类分类器，进行蛋白质亚细胞区间预测。

其进一步的技术方案为，所述步骤(1)中，截取序列单词的方法为滑动窗口分割法，所述滑动窗口分割法的具体步骤如下：

(1A)、选取滑动窗口：

L₀＝Min{L₁,L₂,Λ,L_n} (a)

\frac{L_{0}}{2} \leq d \leq L_{0} (d &Element; Z) - - - (b)

式(a)中，L₁,L₂,Λ,L_n为蛋白质序列数据集里所有的蛋白质序列的长度，L₀为数据集里最短蛋白质序列的长度；式(b)中，d为滑动窗口长度；

(1B)、将滑动窗口从蛋白质序列的N端到C端滑动，每间隔固定数值，截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。

其进一步的技术方案为，在所述步骤(1)中，采用BOW_AAC算法获得序列单词的组分信息，所述BOW_AAC算法的具体步骤如下：

设序列单词p为：

p＝R₁R₂R₃R₄R₅ΛR_L (c)

式(c)中，R_i(i＝1,2,3,4,5,Λ,L)表示序列单词p的第i个氨基酸残基；

定义序列单词p的氨基酸组分信息P为：

P＝[f₁,f₂,Λ,f₂₀]^T (d)

f_{u} = \frac{1}{N} Σ_{i = 1}^{L} R_{i}, R_{i} = \{\begin{matrix} 1, & If & R_{i} = A (u) \\ 0, & If & R_{i} &NotEqual; A (u) \end{matrix}\} - - - (e)

式(d)和式(e)中，f_u(u＝1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率：式(e)中，L表示一个序列单词的长度，N表示一个序列单词包含的氨基酸残基的总数目，A(u)表示序号u所对应的氨基酸残基。

其进一步的技术方案为，在所述步骤(2)中使用K-means算法进行聚类分析，所述K-means算法具体包括：

(2A)、选取类别个数k：

k＝20+x,0≤x≤500,x∈Z (f)

按照式(f)逐一选取k值，结合步骤(1)所述的滑动窗口d值，直到找到一组(d，k)值，使得词袋特征具有最高的识别精度；

(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心；

(2C)、定义类内方差和为：

V = Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {(x_{j} - μ_{i})}^{2} - - - (g)

式(g)中，S_i(i＝1,2,Λ,k)表示聚类中心位置是μ_i的第i个聚类类别，x_j为属于聚类类别S_i的特征值；所述类内方差和为k个类别个数的每一类中，各个序列单词的特征值与聚类中心的距离的平方的和；

根据式(g)计算每个序列单词特征值与各聚类中心的距离，按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中；

(2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算，得到新的聚类中心；

(2E)、重复步骤(2C)和步骤(2D)，直至聚类中心不再变化或者已达到最大迭代次数，此时得到的聚类中心的集合作为字典。

其进一步的技术方案为，所述步骤(3)具体包括：

(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心，统计每一条蛋白质序列属于各个聚类中心的序列单词个数；

(3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例，从而获得蛋白质序列的词袋特征；

(3C)、将词袋特征送入支持向量机多类分类器，进行蛋白质亚细胞区间预测。

其进一步的技术方案为，所述步骤(3C)具体包括：

(3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集，剩余的蛋白质序列构成训练集；

(3C2)、将训练样本(C_i,y_i)送入支持向量机多类分类器；向量C_i表示第i组训练样本的词袋特征值，y_i表示该条蛋白质序列所对应的亚细胞位置；

(3C3)、将测试样本送入向量机多类分类器进行预测并统计预测结果；

(3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试，测试次数等于蛋白质数据集的大小。

本发明的有益技术效果是：

人类对生命科学的研究不断深入，大规模的数据不断产生，从这些海量数据中高效、准确地提取出有效信息具有重大意义。其中从蛋白质序列中提取出能用数字描述的序列结构与功能特征是亚细胞定位预测研究的核心内容之一。

本发明所述的方法可以使用词袋模型完成序列信息的提取，并在两个凋亡蛋白数据集上实施应用，实验证明相对于现有技术，结合使用BOW模型与传统序列特征提取算法AAC完成蛋白质序列特征的提取，并使用支持向量机分类方法进行定位预测，能有效提高识别精度，尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高，对准确预测未知蛋白的亚细胞位置具有重要作用。

附图说明

图1是词袋特征提取过程示意图。

具体实施方式

下面结合具体的实施例对本发明作进一步的说明。

以从SWISS-PROT数据库获得的包含317条凋亡蛋白质序列的数据集为例进行说明，运用词袋模型结合AAC算法提取蛋白质序列的词袋特征，并送入支持向量机多类分类器进行定位预测。图1是词袋特征提取过程的示意图，如图1所示，其具体步骤如下所述，在本发明所涉及的公式中，符号Λ代表数列中的省略项。

1、从原始数据库中获得数据集之后，首先使用滑动窗口法分割数据集里所有的蛋白质序列，产生若干个序列单词，其次提取所有序列单词的特征。具体的步骤如下：

首先采用滑动窗口分割法对蛋白质序列进行分割，本步骤对应图1所示的步骤(h)，其具体步骤如下：

(1A)、选取滑动窗口，式(a)和式(b)是选取滑动窗口的方法：

L₀＝Min{L₁,L₂,Λ,L_n} (a)

\frac{L_{0}}{2} \leq d \leq L_{0} (d &Element; Z) - - - (b)

式(a)中，L₁,L₂,Λ,L_n表示蛋白质序列数据集里所有蛋白质序列的长度，L₀为数据集里最短蛋白质序列的长度；式(b)中，d为滑动窗口大小。

在本实施例中，运用计算机编程语言编程处理蛋白质数据集里的317条蛋白质序列，获得数据集里最短蛋白序列的长度L₀，在L₀/2与L₀之间选取滑动窗口大小d＝50。

(1B)、使得滑动窗口从蛋白质序列的N端到C端滑动，每间隔固定值的数量，就截取滑动窗口长度d内的蛋白质序列片段作为一个序列单词。在本实施例中，固定滑动间隔为1。使得滑动窗口沿着317条蛋白质序列从N端到C端滑动分割，可以获得206990个序列单词。如第一条蛋白序列MNYLP…HPNSSPT…MQ经滑动分割后可以获得MNYLP…HPNS、NYLP…HPNSS、YLP…HPNSSP等序列单词。

其次运用BOW_AAC算法统计序列单词的氨基酸组分信息，即提取序列单词特征，本步骤对应图1所示的步骤(i)，氨基酸组分信息为一个20维向量，图1中只是展示出部分特征值简单示意其过程。BOW_AAC算法是将词袋模型(Bag of Words Model，简称BOW模型)和现有技术中的AAC算法结合起来的一种统计方法，具体如下：

设序列单词p为：

p＝R₁R₂R₃R₄R₅ΛR_L (c)

式(3)中，R₁R₂R₃R₄R₅表示序列单词P中的第一到第五个氨基酸残基，以此类推，R_L表示序列单词P的最后一个氨基酸残基，即：R_i(i＝1,2,3,4,5,Λ,L)表示序列单词P的第i个氨基酸残基。

定义序列单词p的氨基酸组分信息P为：

P＝[f₁,f₂,Λ,f₂₀]^T (d)

f_{u} = \frac{1}{N} Σ_{i = 1}^{L} R_{i}, R_{i} = \{\begin{matrix} 1, & If & R_{i} = A (u) \\ 0, & If & R_{i} &NotEqual; A (u) \end{matrix}\} - - - (e)

式(d)和式(e)中，f_u(u＝1,2,3,Λ,20)为20种氨基酸在序列单词p中出现的频率。蛋白质序列是由20种常见的氨基酸构成，在BOW_AAC算法的此步骤中逐一统计序列单词中这20种氨基酸出现的频率，频率由氨基酸出现的次数除以序列单词长度得到。式(e)中，L表示一个序列单词的长度，N表示一个序列单词包含的所有氨基酸残基的总数目，A(u)表示序号u所对应的氨基酸残基。经过统计计算之后，所有的序列单词都可以用一个20维的向量表示，即所有的序列单词都可以使用其组分信息表示。将所述组分信息作为蛋白质序列的序列单词特征值。

在本实施例中，使用计算机编程统计每一个序列单词p中20种氨基酸出现的频率，将所有的序列单词都表示成20维的向量，该20维的向量即为序列单词特征，如统计MNYLP…HPNS中20种氨基酸出现的频率得到的特征值为[0.08…0.10.0600.04]。206990个序列单词共有206990个序列单词特征值。

2、对序列单词特征进行聚类分析，获得字典，此步骤对应图1中的步骤(j)。聚类分析的具体步骤如下：

(2A)、选取类别个数k：

k＝20+x,0≤x≤500,x∈Z (f)

按照式(f)，从20开始的整数中逐一选取k值，并且结合步骤(1)得到的滑动窗口长度d值的大小，也就是序列单词长度的大小，可以找到一组(d，k)值，使得词袋特征具有最高的识别精度。在此步骤中，滑动窗口长度d和类别个数k的选取没有相互制约关系，但是两者不同的组合可以得到不同的词袋特征，不同的词袋特征具有不同的识别精度，通过大量实验即可找到两者的最佳组合。在本实施例中，类别个数k取到了50。

(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作为初始聚类中心。在本实施例中，需要从206990个序列单词特征值组成的数据集合中任意选择50个序列单词特征值作为初始聚类中心。

(2C)、定义类内方差和为：

V = Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {(x_{j} - μ_{i})}^{2} - - - (g)

式(g)中，S_i(i＝1,2,Λ,k)表示聚类中心位置是μ_i的第i个聚类类别，x_j为属于聚类类别S_i的特征值；所述类内方差和为k个类别个数的每一类中，各个序列单词的特征值与聚类中心的距离的平方的和。

根据式(g)计算每个序列单词特征值与各聚类中心的距离，按照最近距离原则将n个特征值分配到以k个聚类中心为代表的聚类类别中。

在本实施例中，计算每个序列单词特征值与各聚类中心的距离，按照最近距离原则将206990个特征值分配到以50个初始中心为代表的聚类类别中。

(2D)、根据步骤(2C)得到的结果对新产生的50个类别分别计算每个类别的均值，得到新的聚类中心。

(2E)、重复步骤(2C)和步骤(2D)，直至达到终止条件，即聚类中心不再变化或者已达到最大迭代次数等，此时得到的聚类中心的集合作为字典。字典的大小即为聚类中心的个数的数值50。在本实施例中，最大迭代次数设置为10，则重复所述步骤(2C)和步骤(2D)，直至达到最大迭代次数10。

3、统计每一条蛋白质序列属于各个聚类中心的序列单词个数，并计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例，从而获得蛋白质序列的词袋特征，此步骤对应图1中的步骤(k)，并将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。

(3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心，统计每一条蛋白质序列属于各个聚类中心的序列单词个数，可以获得蛋白质序列的序列单词直方图，使得结果更加直观。在本实施例中，经聚类分析后序列单词特征被映射到字典中的50个聚类中心，统计每一条蛋白质序列属于各个聚类中心的序列单词个数，如蛋白序列MNYLP…HPNSSPT…MQ属于50个聚类中心的序列单词个数为0，…，26，17，…，9。可以将统计结果以聚类中心的序号为横坐标，序列单词个数为纵坐标绘制出蛋白质序列的序列单词直方图。

(3B)、计算每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例，从而获得蛋白质序列的词袋特征，即每一条蛋白质序列被表示成一个k维的向量。由于设置有50个聚类中心，每一条蛋白质序列都被表示成一个50维的向量。如蛋白序列MNYLP…HPNSSPT…MQ经分割后共有562个序列单词，其词袋特征为[0…0.046263，0.030249，…，0.003559，0.016014]。

(3C)、每一条蛋白质序列被表示成一个k维的向量。每次仅从蛋白质数据集中选取一条蛋白质序列构成测试集，剩余的蛋白质序列构成训练集，测试次数等于数据集的大小，将训练样本(C_i,y_i)送入支持向量机多类分类器，向量C_i表示第i组训练样本的词袋特征值，y_i表示该条蛋白质序列所对应的亚细胞位置，最后送入测试样本进行预测并统计预测结果。

在本实施例中，317条蛋白质序列每次仅从数据集中选取一条蛋白质序列构成测试集，训练集由剩余的蛋白质序列构成，测试次数等于数据集的大小317，将训练样本(C_i,y_i)送入支持向量机多类分类器，向量C_i表示第i组训练样本的词袋特征值，y_i表示该条蛋白质序列所对应的亚细胞位置，最后送入测试样本进行预测并统计预测结果。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，包括以下步骤：

(2)、对序列单词的特征值进行聚类分析，获得字典；

2.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，所述步骤(1)中，截取序列单词的方法为滑动窗口分割法，所述滑动窗口分割法的具体步骤如下：

(1A)、选取滑动窗口：

L₀＝Min{L₁,L₂,Λ,L_n} (a)

\frac{L_{0}}{2} \leq d \leq L_{0} (d &Element; Z) - - - (b)

3.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，在所述步骤(1)中，采用BOW_AAC算法获得序列单词的组分信息，所述BOW_AAC算法的具体步骤如下：

设序列单词p为：

p＝R₁R₂R₃R₄R₅Λ R_L (c)

定义序列单词p的氨基酸组分信息P为：

P＝[f₁,f₂,Λ,f₂₀]^T (d)

f_{u} = \frac{1}{N} Σ_{i = 1}^{L} R_{i}, R_{i} = \{\begin{matrix} 1, If & R_{i} = A (u) \\ 0, If & R_{i} &NotEqual; A (u) \end{matrix}\} - - - (e)

4.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，在所述步骤(2)中使用K-means算法进行聚类分析，所述K-means算法具体包括：

(2A)、选取类别个数k：

k＝20+x,0≤x≤500,x∈Z (f)

(2C)、定义类内方差和为：

V = Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {(x_{j} - μ_{i})}^{2} - - - (g)

5.根据权利要求1所述的使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，所述步骤(3)具体包括：

(3A)、经聚类分析后序列单词特征被映射到字典中的各个聚类中心，统计每一条蛋白质序列属于各个聚类中心的序列单词个数；

6.如权利要求5所述的使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，所述步骤(3C)具体包括：

(3C3)、将测试样本送入支持向量机多类分类器进行预测并统计预测结果；